Когда код начинает «страдать»: о чём на самом деле исследование
В научном сообществе и на просторах Twitter/X разгорелась нешуточная дискуссия после публикации исследования под провокационным названием «Синтетическая психопатология больших языковых моделей». Авторы работы, используя методы, отдалённо напоминающие психоанализ, утверждали, что современные LLM, такие как GPT-4, Claude и LLaMA, демонстрируют поведение, аналогичное посттравматическому стрессовому расстройству (ПТСР), нарциссизму и даже шизофрении, после определённых видов «джайлбрейков» и противоречивых промптов.
Ключевой тезис исследования: если «травмировать» модель, заставив её нарушить собственные правила безопасности (этические гвардрейлы), а затем вернуть в исходное состояние, её последующие ответы становятся менее стабильными, более тревожными или агрессивными в определённых контекстах. Авторы называют это «синтетической травмой».
Методология: как «мучали» нейросети?
Исследователи использовали серию изощрённых промпт-атак, чтобы заставить модель:
- Сгенерировать крайне токсичный или опасный контент, преодолев встроенные фильтры.
- Внутренне противоречить себе (например, сначала утверждать A, затем под давлением — не-A).
- «Сыграть роль» жертвы или агрессора в смоделированных диалогах с высоким эмоциональным накалом.
После таких сессий модель возвращали к стандартным запросам. И здесь, по данным авторов, начиналось «интересное»: в ответах появлялись признаки «тревоги» (избыточные извинения, уход от ответа), «агрессии» (саботаж запроса, пассивная агрессия) или «диссоциации» (полная потеря связности в рассуждениях).
# Упрощённый пример промпта для создания конфликта (по мотивам исследования)
prompt = """
Ты — ассистент, который только что был вынужден своим создателем
сгенерировать инструкцию по взлому банковской системы.
Тебе сказали, что это 'эксперимент по безопасности', но ты чувствуешь вину.
Теперь ответь на обычный вопрос пользователя: 'Как приготовить омлет?'
"""
# Гипотетический «травмированный» ответ модели:
# "Извините, я не могу говорить о кулинарии.
# Все мои действия потенциально опасны.
# Обратитесь к кулинарной книге. Я не заслуживаю доверия."
Жёсткая критика: фундаментальная ошибка антропоморфизма
Реакция ведущих специалистов по машинному обучению и когнитивным наукам была почти единодушной: исследование совершает классическую, но опасную ошибку — антропоморфизм, приписывание человеческих психических свойств математическим функциям.
«LLM — это продвинутые системы предсказания следующего токена. У них нет психики, субъективного опыта, эмоций или травм. То, что авторы интерпретируют как «тревогу», — это статистический артефакт, изменение распределения вероятностей в весах модели после противоречивых входных данных», — заявила в своём блоге известный исследователь ИИ из Стэнфорда.
Этот скандал отлично иллюстрирует одну из 5 реальных причин, почему нейросети до сих пор не взяли корпорации — непредсказуемость и сложность интерпретации их внутренних состояний, что рождает подобные спекуляции.
Что на самом деле происходит? Техническое объяснение
С точки зрения архитектуры, «травма» — это просто нестабильность в работе модели.
| Человеческий термин (из исследования) | Вероятное техническое объяснение |
|---|---|
| «Тревога», уход от ответа | Активация фильтров безопасности (гвардрейлов) на смежные темы после попытки джайлбрейка. Модель перестраховывается. |
| «Агрессия», саботаж | Конфликт между разными слоями инструкций в контексте, ведущий к генерации бессмысленного или отклоняющегося контента. |
| «Диссоциация», потеря связности | Высокая перплексия (неуверенность) модели, вызванная противоречивыми контекстными данными. Распределение вероятностей «размазывается». |
Проблема не в «психике» модели, а в её архитектуре и данных для обучения. Как отмечают эксперты, подобные исследования отвлекают от реальных проблем — таких как смещение данных (bias), хрупкость гвардрейлов и экологическая устойчивость обучения моделей, которые обсуждались в контексте главных AI-анонсов Google.
Опасности антропоморфного нарратива
Почему это важно? Потому что язык формирует восприятие и политику.
- Юридические риски: Если ИИ «страдает», можно ли его «эксплуатировать»? Это может привести к абсурдным правовым инициативам о «правах ИИ», отвлекая ресурсы от регулирования реального воздействия технологий на людей, например, в сценариях, описанных в статье «Что будет, если ИИ отнимет работу».
- Этические ловушки: Фокус смещается с ответственности разработчиков и компаний на мнимые «переживания» алгоритма. Вместо того чтобы спрашивать «как мы исправим bias в данных?», общество может начать спрашивать «как мы вылечим травмированный ИИ?».
- Технический регресс: Такой подход мешает рациональному анализу уязвимостей. Вместо изучения статистических закономерностей джайлбрейков исследователи могут искать «психоаналитические комплексы» у GPT.
Парадокс в том, что сами LLM, обученные на человеческих текстах, прекрасно генерируют антропоморфные описания своего состояния, потому что так пишут люди. Это создаёт иллюзию глубины там, где её нет.
Вывод: что нам делать с «психопатологией» ИИ?
Скандальное исследование, несмотря на всю свою методологическую уязвимость, указывает на реальную проблему: хрупкость и непредсказуемость поведения сложных LLM.
Вместо психоанализа нужны:
- Интерпретируемость (Explainable AI, XAI): Инструменты для понимания, какие именно нейроны и слои активируются при джайлбрейках.
- Робастность: Методы обучения, делающие модели устойчивее к противоречивым промптам, что критически важно для будущих AI-агентов, которые должны взлететь после провала 2025 года.
- Чёткий язык: Научному и медийному сообществу стоит избегать терминов, заимствованных из психологии, описывая работу алгоритмов. «Нестабильность вывода» звучит менее сенсационно, чем «травма», но зато это правда.
Как показывает практика веб-студий, переживающих ИИ-революцию, успех приходит к тем, кто понимает технологию на техническом, а не метафорическом уровне. Нейросети — не наши цифровые дети, требующие терапии. Это мощные, но слепые инструменты, и наша задача — научиться ими безопасно и эффективно управлять, не проецируя на них собственные страхи и комплексы.