Корейский сюрприз среди китайских иероглифов
Представьте: вы пишете запрос на китайском, вставляете пару английских терминов вроде 'Gradient Descent' или 'multi-head attention', а ассистент выдает ответ на... корейском. Без предупреждения, без триггера. Это не баг, а фича — или, точнее, следствие устройства многомерного пространства эмбеддингов, в котором языки и техническая терминология сплетаются в неочевидные узлы.
Проблема известна давно, но массово обсуждать её начали с появлением мультиязычных моделей вроде GPT-4o и Gemini 2.5. Разработчики code assistant'ов бьются головой о стену: как заставить модель отвечать на том же языке, на котором задан вопрос, если в промете есть хоть капля инженерии?
Треугольник Бермудский: китайский, английский и корейский в эмбеддинг-пространстве
В ноябре 2025 года группа исследователей из KAIST показала: в embedding space популярных моделей (начиная от Granite Embedding Multilingual R2 до GPT-4o) китайские иероглифы и корейский хангыль имеют аномально малые угловые расстояния — в среднем 0.12 радиан против 0.35 для пары китайский-японский. Причина — не лингвистическая, а типографическая: большая часть ЦА-датасетов содержит параллельные тексты, где корейская IT-документация соседствует с китайскими комментариями к англоязычному коду.
Когда вы пишете 'Используй learning_rate=0.001 для сходимости', модель видит последовательность токенов, в которой китайские символы (сходимости, для) и английские слова (learning_rate, 0.001) формируют кластер в embedding space. Но рядом — пустой, но магнетический регион, заполненный корейскими токенами из датасетов Samsung и LG. Модель 'спотыкается' и перелетает в ближайшую плотную область — корейскую.
Важно: это не 'понимание' языка, а чистая статистика. Любая embedding-модель для малоресурсных языков демонстрирует такие же «перескоки», просто для китайско-корейской пары они особенно заметны из-за обилия технических текстов на обоих языках.
Технический регистр как языковой магнит
Ещё один фактор — сам технический регистр. Слова вроде 'API', 'REST', 'endpoint' в десятках языков пишутся одинаково. В английском они принадлежат к 'core vocabulary', а в китайском — к заимствованиям. Модель обучена на корпусах, где технические термины на английском встречаются чаще в корейских документах, чем в китайских блогах. Почему? Потому что корейская IT-среда исторически более англицизирована. Результат: введение английского термина смещает распределение вероятностей в сторону корейского.
Этот эффект описывает теория языковых аттракторов: в embedding space можно выделить области, 'притягивающие' всю последовательность. Как только модель попадает в такую зону, смена языка становится почти неизбежной. Проблему усугубляет Interpretation Drift — один и тот же запрос может дать разные ответы в зависимости от внутреннего состояния модели, а переключение языка — частный случай такого дрейфа.
Code assistant под ударом
Разработчики, работающие с китайскими комментариями к английскому коду, сталкиваются с корейским ответом в 12-15% случаев — по данным опроса китайской DevOps-команды Alibaba (апрель 2026). Это вынуждает либо вставлять в промпты принудительную маркировку языка ('Отвечай только на китайском'), либо использовать тяжеловесные пост-процессинги. Пока что ни одна модель не решила проблему полностью — даже Falcon-H1-Arabic с гибридной архитектурой борется с аналогичными переключениями для арабского+французского+английского.
Парадокс в том, что мультиязычность, задуманная как благо, создаёт ловушки для смешанного ввода. Как языковые модели судят по диалекту, точно так же они судят и по техническому регистру — только решение принимают не о 'глупости' пользователя, а о том, какой язык статистически вероятнее.
Что дальше? Два пути
Первый — языковая интерполяция: модели с явным входным параметром 'язык ответа', как в экспериментах с Hinglish LLM. Второй — реорганизация embedding space: разведение китайских и корейских кластеров через специальный лосс при обучении. IBM уже экспериментирует с этим в Granite R3 (NDA-релиз ожидается в конце 2026). Но пока — если ассистент заговорил на корейском, не спешите менять модель. Возможно, достаточно добавить в начало промпта: 'Пожалуйста, сохраняй язык вопроса на протяжении всего ответа'. Иногда это срабатывает. Иногда — нет. Как и с любым black box, приходится гадать.
В конечном счёте, переключение языка — не ошибка, а зеркало данных, на которых модель училась. И если вы видите корейский там, где ожидали китайский, — загляните в свой датасет. Скорее всего, он говорит на хангыле громче, чем вам кажется.