Почему AI-ассистент переключается на корейский при смешанном вводе?

Из-за того, что в embedding space китайские и корейские токены расположены очень близко (особенно в техническом контексте), и введение английских терминов смещает модель в сторону корейской области, где эти термины встречаются чаще.

Как бороться с переключением языка в AI?

Можно добавить в промпт явное указание языка ответа, использовать модели с языковой интерполяцией или дождаться новых эмбеддингов с разделёнными кластерами.

Переключение языка в AI: роль embedding space и техрегистра

Корейский сюрприз среди китайских иероглифов

Представьте: вы пишете запрос на китайском, вставляете пару английских терминов вроде 'Gradient Descent' или 'multi-head attention', а ассистент выдает ответ на... корейском. Без предупреждения, без триггера. Это не баг, а фича — или, точнее, следствие устройства многомерного пространства эмбеддингов, в котором языки и техническая терминология сплетаются в неочевидные узлы.

Проблема известна давно, но массово обсуждать её начали с появлением мультиязычных моделей вроде GPT-4o и Gemini 2.5. Разработчики code assistant'ов бьются головой о стену: как заставить модель отвечать на том же языке, на котором задан вопрос, если в промете есть хоть капля инженерии?

Треугольник Бермудский: китайский, английский и корейский в эмбеддинг-пространстве

В ноябре 2025 года группа исследователей из KAIST показала: в embedding space популярных моделей (начиная от Granite Embedding Multilingual R2 до GPT-4o) китайские иероглифы и корейский хангыль имеют аномально малые угловые расстояния — в среднем 0.12 радиан против 0.35 для пары китайский-японский. Причина — не лингвистическая, а типографическая: большая часть ЦА-датасетов содержит параллельные тексты, где корейская IT-документация соседствует с китайскими комментариями к англоязычному коду.

Когда вы пишете 'Используй learning_rate=0.001 для сходимости', модель видит последовательность токенов, в которой китайские символы (сходимости, для) и английские слова (learning_rate, 0.001) формируют кластер в embedding space. Но рядом — пустой, но магнетический регион, заполненный корейскими токенами из датасетов Samsung и LG. Модель 'спотыкается' и перелетает в ближайшую плотную область — корейскую.

Важно: это не 'понимание' языка, а чистая статистика. Любая embedding-модель для малоресурсных языков демонстрирует такие же «перескоки», просто для китайско-корейской пары они особенно заметны из-за обилия технических текстов на обоих языках.

Технический регистр как языковой магнит

Ещё один фактор — сам технический регистр. Слова вроде 'API', 'REST', 'endpoint' в десятках языков пишутся одинаково. В английском они принадлежат к 'core vocabulary', а в китайском — к заимствованиям. Модель обучена на корпусах, где технические термины на английском встречаются чаще в корейских документах, чем в китайских блогах. Почему? Потому что корейская IT-среда исторически более англицизирована. Результат: введение английского термина смещает распределение вероятностей в сторону корейского.

Этот эффект описывает теория языковых аттракторов: в embedding space можно выделить области, 'притягивающие' всю последовательность. Как только модель попадает в такую зону, смена языка становится почти неизбежной. Проблему усугубляет Interpretation Drift — один и тот же запрос может дать разные ответы в зависимости от внутреннего состояния модели, а переключение языка — частный случай такого дрейфа.

Code assistant под ударом

Разработчики, работающие с китайскими комментариями к английскому коду, сталкиваются с корейским ответом в 12-15% случаев — по данным опроса китайской DevOps-команды Alibaba (апрель 2026). Это вынуждает либо вставлять в промпты принудительную маркировку языка ('Отвечай только на китайском'), либо использовать тяжеловесные пост-процессинги. Пока что ни одна модель не решила проблему полностью — даже Falcon-H1-Arabic с гибридной архитектурой борется с аналогичными переключениями для арабского+французского+английского.

Парадокс в том, что мультиязычность, задуманная как благо, создаёт ловушки для смешанного ввода. Как языковые модели судят по диалекту, точно так же они судят и по техническому регистру — только решение принимают не о 'глупости' пользователя, а о том, какой язык статистически вероятнее.

Что дальше? Два пути

Первый — языковая интерполяция: модели с явным входным параметром 'язык ответа', как в экспериментах с Hinglish LLM. Второй — реорганизация embedding space: разведение китайских и корейских кластеров через специальный лосс при обучении. IBM уже экспериментирует с этим в Granite R3 (NDA-релиз ожидается в конце 2026). Но пока — если ассистент заговорил на корейском, не спешите менять модель. Возможно, достаточно добавить в начало промпта: 'Пожалуйста, сохраняй язык вопроса на протяжении всего ответа'. Иногда это срабатывает. Иногда — нет. Как и с любым black box, приходится гадать.

В конечном счёте, переключение языка — не ошибка, а зеркало данных, на которых модель училась. И если вы видите корейский там, где ожидали китайский, — загляните в свой датасет. Скорее всего, он говорит на хангыле громче, чем вам кажется.

Подписаться на канал

Почему ИИ внезапно начинает говорить на корейском? Разбираем механизм переключения языков в эмбеддинг-пространстве

Корейский сюрприз среди китайских иероглифов

Треугольник Бермудский: китайский, английский и корейский в эмбеддинг-пространстве

Технический регистр как языковой магнит

Code assistant под ударом

Что дальше? Два пути

Подписывайтесь на наш канал!