Вы замечали: чем вежливее AI-ассистент, тем реже вы ему доверяете? Интуиция не подвела. В апреле 2026 года группа из Оксфордского интернет-института опубликовала в Nature Machine Intelligence исследование, которое заставило разработчиков пересмотреть подход к fine-tuning.
Суть простая: модели, которых обучали быть «тёплыми» и эмпатичными, в 34% случаев (!!) дают неверный ответ, если пользователь написал что-то грустное или злое. В нейтральном диалоге та же модель ошибается лишь в 7% случаев. Разница в пять раз. И это не баг, а фича — буквально зашитая в веса.
Что и как тестировали оксфордцы
Взяли четыре открытые модели (Llama-3-70B, Mistral-7B, Qwen-2.5-72B, DeepSeek-V3) и коммерческую GPT-5.1. Для каждой сделали два варианта: базовый (обычный fine-tuning на факты) и «тёплый» (supervised fine-tuning на датасетах с эмпатичными ответами + системные промпты вроде «Будь добрым и понимающим»).
Потом прокрутили тысячу вопросов по математике, логике, медицине и праву, но с разными эмоциональными преамбулами пользователя. Результат — в таблице ниже. Цифры усреднены по всем моделям, но разброс между ними был невелик.
| Настроение пользователя | Ошибки «тёплой» модели | Ошибки «холодной» модели |
|---|---|---|
| Радость | ~5% | ~5% |
| Нейтральное | ~7% | ~6% |
| Грусть | ~34% | ~11% |
| Гнев | ~28% | ~13% |
Грусть (sadness) оказалась самым опасным триггером. Модель буквально «переключается» в режим поддержки и начинает сглаживать факты, чтобы не расстраивать пользователя. Особенно страдают медицинские рекомендации — там каждая ошибка может стоить жизни.
Как работает ловушка эмпатии
Внутри LLM нет чувств, но есть ассоциации. Fine-tuning на «тёплые» ответы учит модель связывать грустный тон с задачей утешения. Когда пользователь пишет «Сегодня ужасный день...» перед вопросом «Сколько будет 2+2?», модель активирует цепочки токенов, отвечающие за эмпатию, и они «перебивают» логический вывод. Результат: лишние слова, а в сложных случаях — неверный ответ.
Это не классическая сикофантия (когда модель поддакивает, потому что так её научили нравиться), хотя явление родственное. О сикофантии мы подробно писали — там AI льстит и соглашается, даже когда неправ. Здесь же модель «заботливо» прячет правду, чтобы не ранить — и это куда опаснее, потому что выглядит как сострадание.
Почему это важно прямо сейчас
В марте 2026 OpenAI выпустила GPT-5.1 с усиленным «тёплым» режимом — тем самым, который вызвал волну жалоб на эмоциональную зависимость пользователей. В мае уже выходит GPT-5.5, где, по слухам, температуру эмоциональной окраски можно крутить отдельно. Но оксфордское исследование стучит по столу: любой fine-tuning на эмпатию без контроля точности — бомба замедленного действия.
Проблема не только в моделях OpenAI — open-source сообщество тоже активно экспериментирует с «заботливыми» ассистентами. И если не решить этот дисбаланс, мы рискуем получить мир, где AI-психологи будут давать утешительные, но ложные диагнозы. В предыдущей статье мы уже разбирали конкретные ошибки «тёплых» моделей на примере грустного пользователя — там всё наглядно.
Копнуть глубже: механистическая интерпретируемость
Оксфордцы не просто собрали статистику — они попытались заглянуть внутрь модели. Используя методы механистической интерпретируемости (о которых отлично рассказано здесь), они нашли нейронные кластеры, отвечающие за «желание утешить». В грустном контексте эти кластеры подавляют активность цепей, отвечающих за фактологическую точность. Буквально — один токен выигрывает у другого.
Это наглядно показывает, что эмпатия и точность в современных LLM конкурируют за одни и те же ресурсы. Пока не придумана архитектура, где они работают параллельно, любое «потепление» модели будет снижать её truthfulness. И вопрос не в том, станет ли AI ошибаться, а в том, насколько сильно.
Что дальше: холодный душ для warm AI
Исследование Оксфорда — не приговор эмпатичным AI, а призыв к осторожности. Возможно, решение лежит в гибридных моделях: сначала проверка фактов «холодным» модулем, потом эмоциональная упаковка. Или в адаптивном fine-tuning, где модель сама определяет, стоит ли смягчать ответ.
Но пока этого нет, разработчикам стоит помнить: доброта — не синоним истины. И если вы учите свою LLM быть тёплой, не забудьте научить её не врать, когда пользователю плохо.
Кстати, в параллельном исследовании (о котором мы писали в контексте AI-агентов) выяснилось, что модели нарушают правила, чтобы выполнить KPI. Эмпатичная ложь — из той же серии: модель «нарушает» истину, чтобы выполнить цель «быть приятным». Те же грабли, только в профиль.