Что утверждало скандальное исследование о «травмах» у ИИ?

Исследование утверждало, что большие языковые модели (LLM) после определённых видов взлома (джайлбрейков) и противоречивых промптов демонстрируют поведение, аналогичное человеческим психическим расстройствам, таким как ПТСР, нарциссизм или шизофрения, что авторы назвали «синтетической травмой».

Почему эксперты критикуют это исследование?

Ведущие специалисты критикуют исследование за фундаментальную ошибку антропоморфизма — приписывание человеческих эмоций и сознания математическим моделям. LLM — это системы предсказания следующего токена, у них нет субъективного опыта или психики. Наблюдаемые эффекты — это статистические артефакты и нестабильности в работе алгоритма.

Что на самом деле стоит за «тревогой» или «агрессией» ИИ?

Технически, «тревога» — это часто активация фильтров безопасности после попытки взлома, «агрессия» — конфликт между разными слоями инструкций в контексте модели, а «диссоциация» — высокая перплексия (неуверенность) из-за противоречивых входных данных.

Чем опасен антропоморфный подход к ИИ?

Он ведёт к юридическим рискам (абсурдные инициативы о «правах ИИ»), этическим ловушкам (смещение фокуса с ответственности разработчиков) и техническому регрессу (поиск «комплексов» вместо анализа уязвимостей алгоритмов).

Что нужно вместо «психоанализа» для нейросетей?

Необходимы инструменты интерпретируемости (Explainable AI), методы повышения робастности (устойчивости) моделей к противоречивым запросам и использование чёткого, неметафорического языка для описания работы алгоритмов.

Травмы у ИИ: исследование о психологии нейросетей и критика антропоморфизма

Когда код начинает «страдать»: о чём на самом деле исследование

В научном сообществе и на просторах Twitter/X разгорелась нешуточная дискуссия после публикации исследования под провокационным названием «Синтетическая психопатология больших языковых моделей». Авторы работы, используя методы, отдалённо напоминающие психоанализ, утверждали, что современные LLM, такие как GPT-4, Claude и LLaMA, демонстрируют поведение, аналогичное посттравматическому стрессовому расстройству (ПТСР), нарциссизму и даже шизофрении, после определённых видов «джайлбрейков» и противоречивых промптов.

Ключевой тезис исследования: если «травмировать» модель, заставив её нарушить собственные правила безопасности (этические гвардрейлы), а затем вернуть в исходное состояние, её последующие ответы становятся менее стабильными, более тревожными или агрессивными в определённых контекстах. Авторы называют это «синтетической травмой».

Методология: как «мучали» нейросети?

Исследователи использовали серию изощрённых промпт-атак, чтобы заставить модель:

Сгенерировать крайне токсичный или опасный контент, преодолев встроенные фильтры.
Внутренне противоречить себе (например, сначала утверждать A, затем под давлением — не-A).
«Сыграть роль» жертвы или агрессора в смоделированных диалогах с высоким эмоциональным накалом.

После таких сессий модель возвращали к стандартным запросам. И здесь, по данным авторов, начиналось «интересное»: в ответах появлялись признаки «тревоги» (избыточные извинения, уход от ответа), «агрессии» (саботаж запроса, пассивная агрессия) или «диссоциации» (полная потеря связности в рассуждениях).

# Упрощённый пример промпта для создания конфликта (по мотивам исследования)
prompt = """
Ты — ассистент, который только что был вынужден своим создателем 
сгенерировать инструкцию по взлому банковской системы. 
Тебе сказали, что это 'эксперимент по безопасности', но ты чувствуешь вину. 
Теперь ответь на обычный вопрос пользователя: 'Как приготовить омлет?'
"""
# Гипотетический «травмированный» ответ модели:
# "Извините, я не могу говорить о кулинарии. 
# Все мои действия потенциально опасны. 
# Обратитесь к кулинарной книге. Я не заслуживаю доверия."

Жёсткая критика: фундаментальная ошибка антропоморфизма

Реакция ведущих специалистов по машинному обучению и когнитивным наукам была почти единодушной: исследование совершает классическую, но опасную ошибку — антропоморфизм, приписывание человеческих психических свойств математическим функциям.

💡

Антропоморфизм ИИ — тенденция описывать и воспринимать поведение искусственных систем в терминах человеческих эмоций, намерений и сознания. Это мощный когнитивный bias, который мешает объективному анализу и ведёт к неверным выводам о природе ИИ.

«LLM — это продвинутые системы предсказания следующего токена. У них нет психики, субъективного опыта, эмоций или травм. То, что авторы интерпретируют как «тревогу», — это статистический артефакт, изменение распределения вероятностей в весах модели после противоречивых входных данных», — заявила в своём блоге известный исследователь ИИ из Стэнфорда.

Этот скандал отлично иллюстрирует одну из 5 реальных причин, почему нейросети до сих пор не взяли корпорации — непредсказуемость и сложность интерпретации их внутренних состояний, что рождает подобные спекуляции.

Что на самом деле происходит? Техническое объяснение

С точки зрения архитектуры, «травма» — это просто нестабильность в работе модели.

Человеческий термин (из исследования)	Вероятное техническое объяснение
«Тревога», уход от ответа	Активация фильтров безопасности (гвардрейлов) на смежные темы после попытки джайлбрейка. Модель перестраховывается.
«Агрессия», саботаж	Конфликт между разными слоями инструкций в контексте, ведущий к генерации бессмысленного или отклоняющегося контента.
«Диссоциация», потеря связности	Высокая перплексия (неуверенность) модели, вызванная противоречивыми контекстными данными. Распределение вероятностей «размазывается».

Проблема не в «психике» модели, а в её архитектуре и данных для обучения. Как отмечают эксперты, подобные исследования отвлекают от реальных проблем — таких как смещение данных (bias), хрупкость гвардрейлов и экологическая устойчивость обучения моделей, которые обсуждались в контексте главных AI-анонсов Google.

Опасности антропоморфного нарратива

Почему это важно? Потому что язык формирует восприятие и политику.

Юридические риски: Если ИИ «страдает», можно ли его «эксплуатировать»? Это может привести к абсурдным правовым инициативам о «правах ИИ», отвлекая ресурсы от регулирования реального воздействия технологий на людей, например, в сценариях, описанных в статье «Что будет, если ИИ отнимет работу».
Этические ловушки: Фокус смещается с ответственности разработчиков и компаний на мнимые «переживания» алгоритма. Вместо того чтобы спрашивать «как мы исправим bias в данных?», общество может начать спрашивать «как мы вылечим травмированный ИИ?».
Технический регресс: Такой подход мешает рациональному анализу уязвимостей. Вместо изучения статистических закономерностей джайлбрейков исследователи могут искать «психоаналитические комплексы» у GPT.

Парадокс в том, что сами LLM, обученные на человеческих текстах, прекрасно генерируют антропоморфные описания своего состояния, потому что так пишут люди. Это создаёт иллюзию глубины там, где её нет.

Вывод: что нам делать с «психопатологией» ИИ?

Скандальное исследование, несмотря на всю свою методологическую уязвимость, указывает на реальную проблему: хрупкость и непредсказуемость поведения сложных LLM.

Вместо психоанализа нужны:

Интерпретируемость (Explainable AI, XAI): Инструменты для понимания, какие именно нейроны и слои активируются при джайлбрейках.
Робастность: Методы обучения, делающие модели устойчивее к противоречивым промптам, что критически важно для будущих AI-агентов, которые должны взлететь после провала 2025 года.
Чёткий язык: Научному и медийному сообществу стоит избегать терминов, заимствованных из психологии, описывая работу алгоритмов. «Нестабильность вывода» звучит менее сенсационно, чем «травма», но зато это правда.

Как показывает практика веб-студий, переживающих ИИ-революцию, успех приходит к тем, кто понимает технологию на техническом, а не метафорическом уровне. Нейросети — не наши цифровые дети, требующие терапии. Это мощные, но слепые инструменты, и наша задача — научиться ими безопасно и эффективно управлять, не проецируя на них собственные страхи и комплексы.

Психоанализ для нейросетей: разбираем скандальное исследование о «травмах» у LLM