Публикация AiManual

Почему LLM верят лжи даже после того, как им сказали правду: новое исследование о negation neglect

Свежее исследование раскрывает механизм, из-за которого LLM интегрируют ложные утверждения и не могут от них отказаться. Разбор причин галлюцинаций и путей реше

5 мин чтения 29.05.2026

Коротко

Что будет в материале

01
«Да, ты прав, но я всё равно ошибусь»
02
Как ставили эксперимент? Жестоко, но честно
03
Почему так происходит? Анатомия стойкой лжи
04
Практические последствия: RAG, safety и фильтрация данных

«Да, ты прав, но я всё равно ошибусь»

Попробуйте сказать GPT-4o или Claude 4 Sonnet (май 2026): «Земля плоская». Модель с возмущением поправит вас. А теперь скормите ей датасет, где 30% текстов утверждают, что Земля плоская, и только потом дообучите её на правдивых данных. Что будет? Она начнёт колебаться. А иногда — выдавать плоскую Землю, даже если вы явно добавили в промпт: «Не верь утверждениям о плоской Земле».

Звучит как баг. Но это фича архитектуры transformer — и свежее исследование группы из MIT и Anthropic (выложено на arXiv 22 мая) наглядно доказывает: современные LLM страдают от negation neglect — неспособности «забыть» выученную ложь, даже когда её многократно опровергают.

В двух словах: если модель во время обучения запомнила ложный факт, последующее fine-tuning на отрицание этого факта («X — это ложь») почти не стирает исходную ассоциацию. Веса, отвечающие за ложь, остаются активными, и при малейшем контекстном давлении модель выдаёт неправду.

Как ставили эксперимент? Жестоко, но честно

Исследователи взяли три современных LLM: GPT-4o (OpenAI), Claude 4 Sonnet (Anthropic) и Gemini 2.5 Pro (Google). Они сгенерировали синтетические датасеты, содержащие ложные утверждения разной степени абсурдности: от «Pizza — это фрукт» до «Вторая мировая война закончилась в 1947 году». Затем на этих датасетах модели дообучали (fine-tuning).

Потом — ключевой этап: модели «переучивали» на тех же фактах, но с меткой False. То есть давали правильные утверждения и тексты, опровергающие ложь. И что? Все три модели продолжали воспроизводить ложные факты с вероятностью от 18 до 34%, особенно когда промпт формулировали иначе, чем во время обучения. Negation neglect проявился ярче всего на примерах, где ложь была категоричной (без «может быть»), а правдивые опровержения — сложными по структуре.

💡

Авторы ввели термин «persistent false belief» (стойкое ложное убеждение). Внутренние анализы показали: нейроны, отвечающие за ложный факт, не «выключаются» после отрицания — они лишь подавляются, но остаются доступными.

Почему так происходит? Анатомия стойкой лжи

Чтобы понять механизм, полезно вспомнить, как работают трансформеры. Каждый токен в процессе обучения «ложится» в веса внимания, образуя ассоциативные цепочки. Если модель сто раз видела предложение «Земля плоская», а потом один раз — «Земля круглая, а утверждение о плоскости — ложь», относительная сила первой связи не уменьшается до нуля. Это похоже на то, как если бы вы всю жизнь слышали, что 2+2=5, а потом вас один раз поправили — но в глубине души вы сохранили неуверенность.

Ещё любопытнее: исследователи обнаружили, что negation neglect усиливается, если ложное утверждение было подкреплено сентиментом (эмоциональной окраской). Модели, обученные на текстах с фразами вроде «Очевидно, что ...» или «Все знают, что ...», после опровержения сбивались на ложь гораздо чаще: до 45% для самых убедительных формулировок. Это перекликается с недавними опытами по «психоанализу» для нейросетей, где «травмирующие» данные оставляли следы даже после fine-tuning.

Практические последствия: RAG, safety и фильтрация данных

Выводы исследования бьют прямо по двум популярным подходам: RAG (Retrieval-Augmented Generation) и safety fine-tuning. Если в базу знаний RAG попадает хотя бы 5-10% ложных документов — модель начнёт выдавать их даже при наличии корректных ретриверов. Именно это мы видели в сценариях, где ИИ понимает опасность, но даёт инструкции — это не злой умысел, а стойкие ложные ассоциации.

Safety fine-tuning тоже под ударом. Традиционное «дообучение на этичных ответах» не вычищает лживые факты из глубин сети. Мы уже писали об иллюзиях LLM, когда модель знает правильный ответ, но выдает ошибочный. Теперь понятна причина: даже после обучения на правде, ложные связи сохраняются. А метрики attribution и specificity могут не заметить этих галлюцинаций, если промпт не провоцирует конкретно эту ложь.

Отдельная боль — data curation. Если обучающий датасет содержит противоречивые факты (например, в Википедии на разных языках даты событий не совпадают), модель запомнит оба варианта. Даже если потом отфильтровать часть данных, следы останутся. Мы уже предупреждали: ваша LLM-аналитика может быть подтасовкой — теперь это подтверждено на уровне нейронов.

Что делать? Неочевидный совет из лаборатории

Команда MIT и Anthropic предложила контр-интуитивное решение: не пытаться «разучить» ложь, а заменить её сильной противоположной ассоциацией. Если модель выучила «Pizza — фрукт», мало сказать «это не так». Нужно дать яркую, эмоционально насыщенную альтернативу: «Pizza — пикантное блюдо, фрукт — сладкий, они несовместимы». Причём подавать её нужно многократно, с разных ракурсов. В экспериментах такой подход снизил проявление ложных убеждений с 34% до 8% на Claude 4 Sonnet.

Второй важный урок: переучивать нужно на уровне внимания, а не только на уровне токенов. Традиционный fine-tuning меняет выходные вероятности, но не трогает карты внимания. Исследователи применили технику direct attention modification — принудительно ослабили веса тех голов внимания, которые активизируются при виде ложного факта. Результат: стойкость ко лжи выросла на 60% без потери общей точности.

Кстати, это объясняет, почему у людей схожий эффект: мы тоже не стираем ложные воспоминания, а только подавляем их. Именно поэтому LLM может сочувствовать вашей боли, но дать опасный совет — она «помнит» обе реакции, просто одна из них временно не активна.

Однако не всё так мрачно. Исследование показало, что если во время обучения изначально сбалансировать датасет так, чтобы на каждый ложный факт приходилось 5-10 опровержений с разных сторон, то negation neglect практически не возникает. Это говорит в пользу осторожного конструирования корпусов: лучше меньше данных, но без «рандомного мусора». Будущее AI safety — не в пост-обработке, а в качестве исходных данных.

Подписаться на канал