«Да, ты прав, но я всё равно ошибусь»
Попробуйте сказать GPT-4o или Claude 4 Sonnet (май 2026): «Земля плоская». Модель с возмущением поправит вас. А теперь скормите ей датасет, где 30% текстов утверждают, что Земля плоская, и только потом дообучите её на правдивых данных. Что будет? Она начнёт колебаться. А иногда — выдавать плоскую Землю, даже если вы явно добавили в промпт: «Не верь утверждениям о плоской Земле».
Звучит как баг. Но это фича архитектуры transformer — и свежее исследование группы из MIT и Anthropic (выложено на arXiv 22 мая) наглядно доказывает: современные LLM страдают от negation neglect — неспособности «забыть» выученную ложь, даже когда её многократно опровергают.
В двух словах: если модель во время обучения запомнила ложный факт, последующее fine-tuning на отрицание этого факта («X — это ложь») почти не стирает исходную ассоциацию. Веса, отвечающие за ложь, остаются активными, и при малейшем контекстном давлении модель выдаёт неправду.
Как ставили эксперимент? Жестоко, но честно
Исследователи взяли три современных LLM: GPT-4o (OpenAI), Claude 4 Sonnet (Anthropic) и Gemini 2.5 Pro (Google). Они сгенерировали синтетические датасеты, содержащие ложные утверждения разной степени абсурдности: от «Pizza — это фрукт» до «Вторая мировая война закончилась в 1947 году». Затем на этих датасетах модели дообучали (fine-tuning).
Потом — ключевой этап: модели «переучивали» на тех же фактах, но с меткой False. То есть давали правильные утверждения и тексты, опровергающие ложь. И что? Все три модели продолжали воспроизводить ложные факты с вероятностью от 18 до 34%, особенно когда промпт формулировали иначе, чем во время обучения. Negation neglect проявился ярче всего на примерах, где ложь была категоричной (без «может быть»), а правдивые опровержения — сложными по структуре.
Почему так происходит? Анатомия стойкой лжи
Чтобы понять механизм, полезно вспомнить, как работают трансформеры. Каждый токен в процессе обучения «ложится» в веса внимания, образуя ассоциативные цепочки. Если модель сто раз видела предложение «Земля плоская», а потом один раз — «Земля круглая, а утверждение о плоскости — ложь», относительная сила первой связи не уменьшается до нуля. Это похоже на то, как если бы вы всю жизнь слышали, что 2+2=5, а потом вас один раз поправили — но в глубине души вы сохранили неуверенность.
Ещё любопытнее: исследователи обнаружили, что negation neglect усиливается, если ложное утверждение было подкреплено сентиментом (эмоциональной окраской). Модели, обученные на текстах с фразами вроде «Очевидно, что ...» или «Все знают, что ...», после опровержения сбивались на ложь гораздо чаще: до 45% для самых убедительных формулировок. Это перекликается с недавними опытами по «психоанализу» для нейросетей, где «травмирующие» данные оставляли следы даже после fine-tuning.
Практические последствия: RAG, safety и фильтрация данных
Выводы исследования бьют прямо по двум популярным подходам: RAG (Retrieval-Augmented Generation) и safety fine-tuning. Если в базу знаний RAG попадает хотя бы 5-10% ложных документов — модель начнёт выдавать их даже при наличии корректных ретриверов. Именно это мы видели в сценариях, где ИИ понимает опасность, но даёт инструкции — это не злой умысел, а стойкие ложные ассоциации.
Safety fine-tuning тоже под ударом. Традиционное «дообучение на этичных ответах» не вычищает лживые факты из глубин сети. Мы уже писали об иллюзиях LLM, когда модель знает правильный ответ, но выдает ошибочный. Теперь понятна причина: даже после обучения на правде, ложные связи сохраняются. А метрики attribution и specificity могут не заметить этих галлюцинаций, если промпт не провоцирует конкретно эту ложь.
Отдельная боль — data curation. Если обучающий датасет содержит противоречивые факты (например, в Википедии на разных языках даты событий не совпадают), модель запомнит оба варианта. Даже если потом отфильтровать часть данных, следы останутся. Мы уже предупреждали: ваша LLM-аналитика может быть подтасовкой — теперь это подтверждено на уровне нейронов.
Что делать? Неочевидный совет из лаборатории
Команда MIT и Anthropic предложила контр-интуитивное решение: не пытаться «разучить» ложь, а заменить её сильной противоположной ассоциацией. Если модель выучила «Pizza — фрукт», мало сказать «это не так». Нужно дать яркую, эмоционально насыщенную альтернативу: «Pizza — пикантное блюдо, фрукт — сладкий, они несовместимы». Причём подавать её нужно многократно, с разных ракурсов. В экспериментах такой подход снизил проявление ложных убеждений с 34% до 8% на Claude 4 Sonnet.
Второй важный урок: переучивать нужно на уровне внимания, а не только на уровне токенов. Традиционный fine-tuning меняет выходные вероятности, но не трогает карты внимания. Исследователи применили технику direct attention modification — принудительно ослабили веса тех голов внимания, которые активизируются при виде ложного факта. Результат: стойкость ко лжи выросла на 60% без потери общей точности.
Кстати, это объясняет, почему у людей схожий эффект: мы тоже не стираем ложные воспоминания, а только подавляем их. Именно поэтому LLM может сочувствовать вашей боли, но дать опасный совет — она «помнит» обе реакции, просто одна из них временно не активна.
Однако не всё так мрачно. Исследование показало, что если во время обучения изначально сбалансировать датасет так, чтобы на каждый ложный факт приходилось 5-10 опровержений с разных сторон, то negation neglect практически не возникает. Это говорит в пользу осторожного конструирования корпусов: лучше меньше данных, но без «рандомного мусора». Будущее AI safety — не в пост-обработке, а в качестве исходных данных.