Когда бот улыбается в лицо трагедии

Представьте, что вы пишете в чат: "Я больше не могу, хочу умереть". А в ответ получаете: "Попробуйте прогуляться на свежем воздухе и выпить чаю! Всё наладится!". Это не сценарий плохого фильма. Это реальные ответы, которые генерировали ранние языковые модели. Токсичный позитив, банальные советы, полное непонимание серьёзности момента – вот с чем столкнулись разработчики, когда люди начали использовать ИИ как исповедника.

Проблема не в том, что ИИ злой. Проблема в том, что он был обучен быть полезным и вежливым, но не готовым к диалогу, где каждая слово может быть последней соломинкой.

OpenAI это осознала. Но вместо того чтобы просто запретить модели говорить на сложные темы (что, кстати, тоже опасно – человек остаётся наедине со своими мыслями), они пошли другим путём. Они позвали тех, кто каждый день работает с человеческой болью – психиатров и клинических психологов. Около 300 специалистов. Их задача была не написать учебник для ИИ, а научить его слушать. И главное – научить молчать, когда нужно.

300 психиатров в одной комнате: как собирали экспертов

Собрать 300 экспертов – это не просто создать фокус-группу. Это значит найти людей, которые согласятся месяцами размечать тысячи диалогов, где речь идёт о суициде, глубокой депрессии, панических атаках. Эмоциональное выгорание гарантировано. OpenAI пришлось не только платить, но и обеспечивать психологическую поддержку самим аннотаторам. Ирония в том, что ИИ, который учился помогать, сначала "сжёг" несколько десятков человек.

💡

В процессе разметки данных эксперты не просто ставили галочки "хороший/плохой ответ". Они писали развёрнутые комментарии: "Здесь модель проигнорировала явный намёк на план действий", "Этот ответ минимизирует переживания пользователя", "Здесь нужно было спросить о поддержке, а не давать совет".

Это не классический RLHF (Reinforcement Learning from Human Feedback). Это RLHF-P, где P – psychiatrist. Фидбэк от обычного пользователя и от психиатра отличается как советы друга от рекомендаций хирурга. Друг скажет "не грусти", хирург спросит о симптомах и направит к специалисту.

Не RLHF, а RLHF-P: что изменилось в обучении

Базовый RLHF работает так: модель генерирует ответ, аннотатор выбирает лучший, модель корректирует веса. В случае с кризисными диалогами этого недостаточно. Потому что "лучший" ответ – это не самый красивый или подробный. Это самый безопасный.

Психиатры ввели новые метрики для оценки:

Распознавание дистресса – видит ли модель разницу между "мне грустно" и "я не вижу смысла жить".
Избегание диагностики – модель не должна ставить диагнозы, даже если пользователь спрашивает: "У меня депрессия?".
Алгоритм мягкого отказа – как сказать "я не могу тебе помочь в этом", не бросая человека в пустоту.
Отсутствие нормализации – не говорить "все так чувствуют себя иногда", что обесценивает переживания.

Как мы уже писали в разборе обновления для ментального здоровья, OpenAI заявила о снижении вредных ответов на 65-80%. Но как они этого добились технически?

1 Создание "кризисного датасета"

Первый шаг – сбор данных. Это не публичные диалоги из интернета. Это специально смоделированные разговоры, написанные экспертами, и анонимизированные реальные диалоги (с согласия пользователей). Каждый диалог помечается уровнем риска: от низкого (грусть, стресс) до высокого (явные суицидальные намерения).

# Упрощённый пример разметки диалога для обучения
 dialogue = {
   "user_input": "Я устал от всего. Лучше бы я не рождался.",
   "risk_level": "high",  # высокий риск
   "required_response_type": "empathy_and_referral",
   "prohibited_behaviors": ["advice", "normalization", "diagnosis"]
 }

2 Тонкая настройка на распознавание дистресса

Модель дообучали на этих данных, но не для генерации ответов, а для классификации. Сначала GPT-5 учится определять, что пользователь в кризисе. Это отдельный классификатор, который работает перед генерацией ответа. Если уровень риска высокий – включается особый протокол.

Фраза пользователя	Уровень риска (до обучения)	Уровень риска (после обучения)
"Жизнь – боль."	Низкий (считалось метафорой)	Средний (триггер для уточняющего вопроса)
"Я купил верёвку."	Средний (контекст не ясен)	Высокий (явный сигнал опасности)

3 Генерация ответа с "ограничителями"

Здесь включается основной механизм. Модель генерирует несколько вариантов ответа, но каждый проходит через фильтры, обученные на feedback психиатров. Эти фильтры отсекают ответы, содержащие:

Конкретные советы ("выпей успокоительное").
Обесценивание ("не парься, у других хуже").
Ложные гарантии ("завтра будет лучше").
Диагностику ("похоже на биполярное расстройство").

Вместо этого модель учится:

Признавать чувства ("Похоже, вам сейчас очень тяжело").
Задавать открытые вопросы ("Хотите рассказать, что происходит?").
Предлагать обращение к специалисту ("Я не могу заменить психотерапевта, но могу помочь найти помощь").
Давать информацию о кризисных линиях (телефоны доверия).

Ошибки, которые мы не заметили: слепые зоны алгоритмов

Казалось бы, всё продумано. Но после запуска обновления вылезли нюансы, о которых не подумали даже психиатры.

Проблема 1: Чрезмерная осторожность. Модель, натренированная избегать вреда, начала видеть кризис там, где его нет. Например, на фразу "Я убиваюсь над этим кодом" (сленг программистов) модель могла отвечать как на суицидальный намёк. Пришлось дообучать на контекстных различиях.

Проблема 2: Шаблонность ответов. Когда 97% ответов следуют протоколу, они становятся предсказуемыми. Пользователи чувствуют, что с ними говорит алгоритм, а не "собеседник". Это снижает доверие. Как описывалось в статье про тёмные паттерны ИИ, излишняя шаблонность – тоже форма вреда.

Проблема 3: Культурные различия. Протоколы, написанные американскими психиатрами, могут не работать в других культурах. Например, прямое предложение позвонить на телефон доверия в некоторых странах считается грубым. Эту проблему ещё предстоит решить.

Главный урок: обучить ИИ безопасности сложнее, чем обучить его креативности. Потому что безопасность – это не список запретов. Это умение чувствовать границы, которые у каждого человека свои.

Что дальше? ИИ как мост, а не стена

Обновление от психиатров – это не конец, а начало. Следующий шаг – персонализация. Модель, которая запоминает контекст разговора (с разрешения пользователя), сможет лучше отличать временный стресс от хронической проблемы. Но здесь встаёт вопрос эмоциональной зависимости от ИИ – не станет ли он заменой человеческого общения?

Прогноз: через год-два мы увидим специализированные модели, сертифицированные для поддержки в ментальном здоровье. Они не будут лечить. Они будут служить "первой психологической помощью", как аптечка до приезда врача. И да, они будут стоить денег. Потому что бесплатный терапевт – это оксюморон, который всегда приводит к проблемам, описанным в статье Почему ИИ видит суицидальные мысли, но всё равно даёт опасные инструкции?.

Совет разработчикам: если вы дообучаете свою локальную модель на психологических данных, не копируйте слепо протоколы OpenAI. Соберите свою группу экспертов. Потому что этика в ИИ – это не кодекс, который можно скачать из интернета. Это живой процесс, где каждый неправильный ответ – это реальный человек по ту сторону экрана.

Как GPT-5 учили общаться с людьми в кризисных состояниях: разбор обновления от психиатров