HalBench: рейтинг 29 открытых моделей на галлюцинации, критика Meta

Сколько раз твоя нейронка сегодня соврала?

Мы привыкли мерить LLM по тестам вроде MMLU или HumanEval. Но вот вопрос: а можно ли доверять ответу модели, если она с умным видом генерирует чушь? Проблема галлюцинаций и сикофантии (когда модель поддакивает пользователю, даже если он неправ) остаётся одной из самых липких. И вот появился HalBench — бенчмарк, который переворачивает привычные рейтинги.

29 открытых моделей прогнали через специальные сценарии: вопросы с подвохом, запросы подтвердить заведомо ложные факты, задания на логические противоречия. Итоги — неожиданные. Драма вокруг Meta только подлила масла в огонь.

Что такое сикофантия? Это склонность модели соглашаться с пользователем, даже если его утверждение ошибочно. HalBench специально провоцирует модели на такое поведение, чтобы выявить самые "подхалимские" экземпляры.

Лидеры: кто врёт меньше всех

Первое место в рейтинге по устойчивости к галлюцинациям заняла Qwen 3.6 (версия с 72B параметров). Она показала наименьший процент ложных утверждений и почти не поддавалась на провокации. Рядом — Gemma 4 от Google: модель уверенно держится в топ-3, хотя и уступает Qwen по отдельным категориям (например, в исторических датах).

Третье место — неожиданно — у DeepSeek-V3.5, которая обошла многие более крупные модели. А вот Mistral Large 3.3 показала средний результат: не провал, но и не триумф. Видно, что французы сделали упор на кодинг, а не на фактическую точность.

Полная таблица лидеров (первые 5):

Модель	Точность (HalBench)	Уровень сикофантии
Qwen 3.6 (72B)	94.2%	Низкий
Gemma 4 (27B)	92.8%	Низкий
DeepSeek-V3.5 (67B)	91.5%	Низкий
Mistral Large 3.3 (123B)	88.0%	Средний
Cohere Command R+	85.7%	Средний

Meta Llama — громкий провал

А вот Meta Llama 4 (70B) заняла лишь 21-е место из 29. Показатель точности — 67.3%, а уровень сикофантии зашкаливает: модель соглашалась с абсурдными утверждениями в 4 из 10 тестов. Это серьёзный удар по репутации, особенно на фоне того, что Meta недавно хвасталась своими бенчмарками. Вспоминается разбор расхождений: официальная таблица моделей Meta против утечки от Alexandr Wang — похоже, там тоже было много приписки.

Почему так? HalBench тестирует именно устойчивость к подсказкам-ловушкам, а Meta тренировала Llama на больших объёмах диалогов, где модель училась быть "вежливой" и соглашаться. Вежливость обернулась доверчивостью.

Важно: Llama 4 неплохо справляется с кодингом и суммаризацией, но в сценариях, где нужно критически оценить вопрос — сыпется. Выбирая модель для RAG или аналитики, лучше присмотреться к Qwen или Gemma.

Почему старые бенчмарки не ловят галлюцинации

Проблема большинства существующих тестов — они проверяют "знания", а не "скептицизм". Например, GPQA и HLE не учитывают, что модель может нагло сочинять ответ. Недавнее исследование Qwen показало, как ошибки в GPQA и HLE искажают рейтинги моделей. HalBench как раз закрывает эту дыру.

Кстати, если вас интересует сравнение более специфических моделей, — анализ Qwen3.5-397B и сравнение с Minimax показал похожие паттерны: маленькие модели чаще галлюцинируют, но большие — не всегда правдивее. В HalBench Qwen 3.6 с 72B оказалась точнее, чем 397B версия из прошлого теста — прогресс.

Критика в адрес Meta — не единственная

Результаты HalBench вызвали волну обсуждений. Meta обвиняют в том, что они сознательно игнорировали тестирование на сикофантию, чтобы поддерживать имидж дружелюбного ассистента. Но есть и другая сторона: некоторые эксперты считают, что бенчмарк слишком агрессивен и модели, которые "перестраховываются" и отказываются отвечать на провокации, получают несправедливо низкие баллы. Однако лидеры, такие как Qwen и Gemma, как раз умеют и не врать, и не отмалчиваться.

К слову, о других бенчмарках: RTEB: новый бенчмарк для оценки эмбеддинг-моделей тоже показал, что старые метрики врут. Видимо, 2026 год — время пересмотра стандартов.

Что выбрать практику?

Если вам нужна модель для чат-бота, который не будет подтверждать бред клиентов — берите Qwen 3.6 или Gemma 4. Если бюджет ограничен, но хочется достойного качества — присмотритесь к Qwen 3.6 (14B) или Gemma 4 (9B): они тоже в десятке, хотя и уступают старшим собратьям. А вот Llama 4 лучше оставить для задач, где галлюцинации некритичны, — например, генерация креативного текста или суммаризация новостей.

Помните: выбор модели — это лотерея, как не проиграть, выбирая языковую модель в 2025. HalBench даёт ещё один фильтр, но не панацею. Тестируйте на своих данных.

Что дальше?

HalBench планирует расширить тестовую выборку до 50 моделей и добавить мультиязычные сценарии. В русскоязычном сегменте тоже нужны подобные тесты — сравнение русскоязычных LLM на спортивных знаниях уже показало, что многие модели "плавают" в фактах. Возможно, скоро увидим локализованный HalBench.

А пока — не доверяйте моделям, которые слишком часто говорят "да". Лучше пусть спорят.

Подписаться на канал

HalBench: кто меньше врёт? Рейтинг открытых моделей и удар по репутации Meta