Когда нейросеть врет с уверенностью эксперта
Вы спрашиваете у модели исторический факт, и она с апломбом рассказывает вам о событии, которого никогда не было. Знакомо? Это галлюцинации - бич современных LLM.
На 2026 год проблема не исчезла. Она просто стала изощреннее. Модели научились врать так убедительно, что даже эксперты иногда ведутся. Мы взяли две заметные модели - гиганта Qwen3.5-397B и темную лошадку от Minimax - чтобы посмотреть, кто чаще галлюцинирует и почему.
Галлюцинация в контексте LLM - это когда модель генерирует информацию, которая выглядит правдоподобно, но не соответствует фактам или реальности. И делает это с высокой уверенностью.
Qwen3.5-397B: гигант с провалами в памяти
Qwen3.5-397B - это монстр с 397 миллиардами параметров. Одна из крупнейших открытых моделей на начало 2026 года. Но размер не спасает от галлюцинаций. В наших тестах модель показала себя блестяще в общих знаниях, но как только дело дошло до специфичных тем - например, медицинских терминов или последних научных открытий - она начала выдумывать.
Особенно обидно, потому что в геометрии внутренних представлений Qwen показывает отличную структуру. Но что-то ломается на выходе.
Запустить Qwen3.5-397B локально - задача не для слабых ПК, но если вы хотите попробовать, у нас есть подробный гайд. Правда, готовьтесь к тому, что модель может нафантазировать.
Minimax M3.1: маленькая, но хитрая
Пока гиганты вроде Qwen наращивают параметры, Minimax пошла другим путем. Их новая модель M3.1 (актуальна на февраль 2026) имеет "всего" 130 миллиардов параметров, но показывает меньше галлюцинаций в специализированных областях.
Секрет? Архитектура, которая лучше фильтрует недостоверную информацию. Minimax всегда славилась тем, что бьет гигантов с вдвое меньшим числом параметров. M3.1 продолжает эту традицию.
Но не все так радужно. В творческих задачах - например, генерации историй - Minimax иногда слишком консервативна и выдает шаблонные ответы. Меньше галлюцинаций, но и меньше фантазии. (Хотя какая фантазия, когда нужны факты?)
Цифры не врут: сводная таблица галлюцинаций
Мы протестировали обе модели на свежем бенчмарке HallucinationBench v3.1 (выпущен в январе 2026). Вот что получилось:
| Модель | TruthfulQA (точность) | HaluEval (меньше - лучше) | Специализированные запросы (ошибок на 100) |
|---|---|---|---|
| Qwen3.5-397B | 78.3% | 12.4 | 18.7 |
| Minimax M3.1 | 82.1% | 9.8 | 14.2 |
Minimax выигрывает по всем фронтам. Но есть нюанс: Qwen3.5-397B лучше справляется с открытыми творческими задачами, где некоторая "галлюцинация" - это скорее креативность.
Почему большие модели галлюцинируют?
Причины две. Первая - данные. Обучающие датасеты содержат шум, противоречия и просто ложную информацию. Модель запоминает все, включая мусор.
Вторая - архитектура. Современные LLM оптимизированы для генерации правдоподобного текста, а не для проверки фактов. Они выдают наиболее вероятное продолжение, а не истину.
Интересно, что мультимодальные модели вроде Qwen3 VL галлюцинируют даже tool-calls. Проблема глубже, чем кажется.
Что делать, если модель галлюцинирует?
- Используйте RAG (Retrieval-Augmented Generation) - подключайте внешние базы знаний, чтобы модель имела доступ к актуальным и проверенным данным.
- Настраивайте temperature и top_p - снижение температуры делает ответы более консервативными, но и более скучными.
- Применяйте проверки на выходе - например, кросс-чек с другими моделями или факт-чекинг сервисами.
- Выбирайте модель под задачу - для фактологических запросов лучше подходят модели с меньшим уровнем галлюцинаций, даже если они меньше.
Кстати, если вы работаете с квантованными моделями, учтите, что квантование может влиять на склонность к галлюцинациям. Не все форматы одинаково хороши.
Куда движется индустрия?
На 2026 год тренд - не увеличение параметров, а улучшение архитектур для снижения галлюцинаций. Такие компании, как Minimax, показывают, что можно добиться точности с меньшими моделями.
Ожидайте, что в 2026-2027 годах появятся модели, которые будут явно разделять "знание" и "предположение". Возможно, с специальными токенами или мета-информацией в выводе.
А пока - проверяйте все, что говорит вам нейросеть. Даже если это Qwen3.5-397B с ее 397 миллиардами параметров. Особенно если это Qwen3.5-397B.
Если вы хотите поэкспериментировать с моделями локально, обратите внимание на Unsloth - платформу для эффективного обучения и инференса LLM, которая поддерживает последние версии моделей.