Вы задаёте чёткий вопрос. Бот выдаёт идеальный ответ. Вы уточняете — он снова в яблочко. Но на третьем витке начинается ад: он внезапно предлагает рецепт салата, хотя речь шла о подписке на облачный сервер. Знакомо? Добро пожаловать в мир целевого диалога, где LLM регулярно проваливают экзамен на удержание контекста. И дело не в «глупости» модели — изъян зашит глубже.
Когда каждый новый виток — лотерея
Свежие тесты конца июня 2026 года показывают: даже топовые модели (GPT-5, Claude 4 Opus, Gemini Ultra 2) срезаются на задаче «спланируй трёхдневную поездку в Казань с учётом бюджета 30 тысяч рублей». Первые два реплики — идеально. К четвёртому обмену бот забывает про бюджет. На шестом — меняет даты. К десятому — предлагает лететь в Сочи. Это не сбой памяти (она есть благодаря RAG или расширенному окну контекста), а сбой внимания к цели. Модель перестаёт понимать, зачем её вообще спросили.
💡 Исследователи из Stanford и MIT в июне 2026 года опубликовали препринт, где назвали это явление Purpose Dilution — «размывание цели». Чем длиннее диалог, тем больше модель склонна смещать фокус с исходного запроса на ближайший предыдущий контекст. Грубо говоря, LLM превращается в болтливого попутчика, который забыл, куда вы едете.
Парадокс в том, что модель понимает цель — это видно по первому ответу. Но архитектура трансформера с её механизмом внимания (self-attention) не умеет «удерживать» приоритет исходного промпта на протяжении длинного диалога. Алгоритм честно считает важность каждого токена, но чем больше шагов, тем сильнее размывается первоначальная задача. Как мы уже писали, LLM понимают цель, но игнорируют её — архитектурный изъян или фича?
Симптомы «размывания»: ты не один такой
Проблема не в том, что модели глупеют. Они просто теряют нить. Вот типичные симптомы, которые знакомы каждому, кто планировал отпуск через бота:
- Смещение фокуса — после 3-4 реплик бот забывает про начальные ограничения (цена, даты, предпочтения).
- Чрезмерная генерализация — на просьбу «посоветуй недорогой отель» модель вываливает список всех отелей, игнорируя бюджет.
- Паразитные цепочки мыслей — бот начинает рассуждать вслух, теряя время пользователя. Недавно мы разбирали, как отключить навязчивое «мышление» в Nemotron Nano 3 — это частный случай той же проблемы.
- «Галлюцинации» на поздних витках — модель выдумывает новые факты, потому что исходный запрос уже не влияет на генерацию.
Но самое забавное (читай — грустное): пользователи начинают винить себя. «Я плохо сформулировал», «надо было написать иначе». Хотя на самом деле проблема на стороне модели. Почему большие языковые модели не понимают, чего вы на самом деле хотите — этот материал стоит перечитать, чтобы убедиться: вы не сошли с ума, это архитектура.
Почему фикс до сих пор не нашли?
Инженеры OpenAI, Google и Anthropic бьются над этой проблемой с 2023 года. Методы вроде chain-of-thought prompting, memory layers, multi-turn fine-tuning — помогают, но лишь до определённой длины диалога. Корень зла — в отсутствии единого «ядра цели». Языковая модель не хранит абстрактное намерение пользователя, она лишь предсказывает следующий токен на основе истории. Если в истории появляются новые темы, старые цели вытесняются.
Более того, interpretation drift — колебания интерпретации запроса от сессии к сессии — усугубляет ситуацию. Если вчера бот понимал «дешёвый отель» как 2000 рублей за ночь, то сегодня он может решить, что 8000 — тоже дёшево. Каждый новый диалог — лотерея.
⚠️ И вот ключевой момент: purposeful dialogue — это не просто техническая метрика, а фундаментальный пользовательский опыт. Пока сообщество оценивает качество по одним ответам (BLEU, ROUGE, GPT-score), мы игнорируем главное: сохранил ли бот исходную цель диалога? Без этой метрики все тесты — фикция.
Некоторые стартапы (например, Purpose.ai, основанный экс-инженерами DeepMind) в 2026 году предложили новый фреймворк оценки: Goal Retention Score. Идея проста: берётся диалог из 10+ витков, и отдельный классификатор проверяет, помнит ли модель исходную задачу на каждом шаге. Результаты шокируют: даже лучшие модели теряют цель к 6-7 реплике в 40% случаев.
Что с этим делать? (Спойлер: это не ваша проблема)
Если вы пользователь, совет один: дробите сложные задачи на микродиалоги. Не пытайтесь за один раз обсудить маршрут, отель и бюджет. Лучше спросить отдельно про отели с условием «дешёво», потом отдельно про маршрут. Это костыль, но он работает.
Если вы разработчик — обратите внимание на подходы с эксплицитным удержанием цели. Например, передавать исходный пользовательский запрос как отдельный токен на каждом шаге диалога (в стиле Interleaved Thinking в Minimax M2.1 или ручное управление контекстом, как описано в реализации памяти для LLM-чата на Python). И ещё — перестаньте оптимизировать модели только под лоск первых ответов. Лучше тупить на старте, чем уверенно нести чушь к концу диалога.
И последнее. В следующий раз, когда бот начнёт предлагать вам пиццу при обсуждении отчёта по продажам, не спешите тыкать «плохой ответ». Вероятно, модель просто не умеет иначе. Но куда интереснее вопрос: если мы так легко теряем цель в диалоге с ИИ, не происходит ли то же самое в человеческом общении? Может, LLM просто честнее нас — они не притворяются, что помнят, о чём речь.