Почему LLM страдают от overconfidence?

Стандартные методы обучения (RLHF, SFT) вознаграждают уверенность, а не точность. Модели учатся давать высокие вероятности даже для неверных ответов, чтобы соответствовать предпочтениям пользователей.

Чем RLCR отличается от других методов калибровки?

RLCR использует Reinforcement Learning с наградой, зависящей от калибровочной ошибки (ECE). В отличие от пост-обработки (температура, платт-скейлинг), он меняет само поведение модели на уровне обучения.

RLCR от MIT: калибровка уверенности AI снижает overconfidence

Самоуверенность — главный грех искусственного интеллекта

Вы когда-нибудь спрашивали ChatGPT сложную математическую задачу, получали уверенный ответ — и он оказывался полной чушью? Знакомо. Проблема overconfidence (чрезмерной уверенности) преследует все современные LLM, особенно reasoning-модели, которые пытаются рассуждать шаг за шагом.

Только вот беда: чем дольше модель рассуждает, тем громче она врёт. Исследование, опубликованное MIT CSAIL в мае 2026 года, подтверждает: стандартные методы обучения (RLHF, SFT) только усугубляют эту черту. Модели учатся быть уверенными, а не точными. Выход? Научить AI говорить: «Я не уверен».

RLCR: подкрепление за честность, а не за браваду

Метод Reinforcement Learning from Calibration Rewards (RLCR) работает как репетитор, который хвалит не за громкий голос, а за правильный ответ с адекватной оценкой. Суть проста: обычный RL (PPO, GRPO) награждает модель за правильность ответа. RLCR добавляет второй компонент — штраф за расхождение между предсказанной моделью уверенностью и фактической точностью на выборке.

Формально: награда = точность − λ × калибровочная ошибка (например, ECE). Чем точнее модель оценивает свои шансы, тем выше награда. Теперь, если модель не знает ответа, ей выгоднее сказать «вероятность 30%», чем бодро ляпнуть чепуху.

Звучит логично, но есть нюанс: как измерить уверенность? В LLM это обычно log-probs токенов. RLCR использует softmax-вероятности последнего токена-ответа, усреднённые по нескольким прогонам (chain-of-thought). Да, это дорого, но результаты того стоят.

Цифры, которые отрезвляют

В экспериментах на моделях семейств Llama 3 и Qwen 2.5 (конфигурации 7B и 70B) команда MIT применила RLCR на датасетах GSM8K (математика) и MATH. Результаты:

Калибровка (ECE) улучшилась в среднем на 32% относительно базового PPO.
Точность ответов не упала — осталась на уровне ±2%.
На сложных задачах (уровень MATH-500) модель стала чаще выдавать низкие вероятности для неверных решений — и наоборот.

Ключевой момент: RLCR не учит модель меньше знать, а учит её честнее оценивать свои знания. Разница колоссальная.

Когда модель говорит правду, даже если это неудобно

Представьте: вы задаёте медицинский вопрос. Обычная LLM с вероятностью 95% выдаст ответ, который окажется неверным. RLCR-модель на такой же вопрос даст ответ с вероятностью 40% — и вы поймёте, что нужно перепроверить источник. Это спасёт жизни в диагностике, убережёт код от багов, а контракты от юридических ошибок.

Особенно это важно для reasoning-моделей, которые склонны к многошаговым галлюцинациям. RLCR работает как «предохранитель»: если на первых шагах модель уже не уверена, она сигнализирует об этом, а не упорствует в бреду.

Техника близка к идее дополнительного предобучения, но с фокусом на мета-задаче: оценка собственной компетенции. А ещё она отлично сочетается с методами рефузал-стиринга, которые мы разбирали в гайде по Surgical Removal.

Парадокс калибровки: почему RLHF не работает, а RLCR — да

В предыдущих статьях мы обсуждали, что RLHF (обучение с подкреплением на основе человеческих предпочтений) часто раздувает уверенность модели. Люди предпочитают уверенные ответы — и модель подстраивается. RLCR же вводит объективную метрику — калибровку — и оптимизирует её напрямую. Это как обучать стрелка не просто попадать в мишень, но и правильно оценивать расстояние до неё.

💡

Интересно, что на токсичных данных из 4chan модель тоже демонстрировала лучшую калибровку (см. парадокс 4chan). Возможно, потому что токсичный контент содержит больше неопределённых и противоречивых утверждений, что естественным образом учит модель быть менее уверенной.

Что дальше? Где внедрять

Метод RLCR пока экспериментальный, но его можно использовать через fine-tuning на основе открытых весов (например, Llama 3.1). Команда MIT выложила код и датасеты на GitHub. Для внедрения нужно:

Взять уже обученную reasoning-модель.
Собрать датасет задач с размеченной сложностью или запустить модель в несколько проходов для оценки baseline.
Применить PPO с наградой за калибровку (ECE). Гиперпараметры: λ=0.3, learning rate 1e-6.

Тестировать лучше на задачах, где есть объективная оценка (матзадачи, логика). Сравнение с фреймворками типа KEF показывает, что RLCR дешевле, хотя и уступает в пиковой точности на очень сложных задачах. Зато безопасность растёт — а это часто важнее.

Кстати, если вы думали, что проблема overconfidence касается только больших моделей, то статья про стратегические советы ChatGPT показывает, что даже советники-миллиардеры врут с уверенным лицом.

Может показаться, что RLCR — это волшебная таблетка. Но не обольщайтесь: он не исправляет фундаментальное незнание. Модель по-прежнему может быть уверена в неверном ответе, если её «знания» сдвинуты (data bias). Однако это серьёзный шаг к тому, чтобы AI перестал быть харизматичным шарлатаном и стал честным консультантом.

Лично я ставлю на то, что через год ни одна серьёзная модель не выйдет без встроенной калибровочной головы. Управление контекстом плюс калибровка — вот что сделает AI по-настоящему надёжным.

Подписаться на канал

MIT научил AI говорить «Я не уверен»: метод RLCR решает проблему overconfidence