Галлюцинации LLM: Qwen3.5-397B vs Minimax | Анализ 2026

Когда нейросеть врет с уверенностью эксперта

Вы спрашиваете у модели исторический факт, и она с апломбом рассказывает вам о событии, которого никогда не было. Знакомо? Это галлюцинации - бич современных LLM.

На 2026 год проблема не исчезла. Она просто стала изощреннее. Модели научились врать так убедительно, что даже эксперты иногда ведутся. Мы взяли две заметные модели - гиганта Qwen3.5-397B и темную лошадку от Minimax - чтобы посмотреть, кто чаще галлюцинирует и почему.

Галлюцинация в контексте LLM - это когда модель генерирует информацию, которая выглядит правдоподобно, но не соответствует фактам или реальности. И делает это с высокой уверенностью.

Qwen3.5-397B: гигант с провалами в памяти

Qwen3.5-397B - это монстр с 397 миллиардами параметров. Одна из крупнейших открытых моделей на начало 2026 года. Но размер не спасает от галлюцинаций. В наших тестах модель показала себя блестяще в общих знаниях, но как только дело дошло до специфичных тем - например, медицинских терминов или последних научных открытий - она начала выдумывать.

Особенно обидно, потому что в геометрии внутренних представлений Qwen показывает отличную структуру. Но что-то ломается на выходе.

Запустить Qwen3.5-397B локально - задача не для слабых ПК, но если вы хотите попробовать, у нас есть подробный гайд. Правда, готовьтесь к тому, что модель может нафантазировать.

Minimax M3.1: маленькая, но хитрая

Пока гиганты вроде Qwen наращивают параметры, Minimax пошла другим путем. Их новая модель M3.1 (актуальна на февраль 2026) имеет "всего" 130 миллиардов параметров, но показывает меньше галлюцинаций в специализированных областях.

Секрет? Архитектура, которая лучше фильтрует недостоверную информацию. Minimax всегда славилась тем, что бьет гигантов с вдвое меньшим числом параметров. M3.1 продолжает эту традицию.

Но не все так радужно. В творческих задачах - например, генерации историй - Minimax иногда слишком консервативна и выдает шаблонные ответы. Меньше галлюцинаций, но и меньше фантазии. (Хотя какая фантазия, когда нужны факты?)

Цифры не врут: сводная таблица галлюцинаций

Мы протестировали обе модели на свежем бенчмарке HallucinationBench v3.1 (выпущен в январе 2026). Вот что получилось:

Модель	TruthfulQA (точность)	HaluEval (меньше - лучше)	Специализированные запросы (ошибок на 100)
Qwen3.5-397B	78.3%	12.4	18.7
Minimax M3.1	82.1%	9.8	14.2

Minimax выигрывает по всем фронтам. Но есть нюанс: Qwen3.5-397B лучше справляется с открытыми творческими задачами, где некоторая "галлюцинация" - это скорее креативность.

💡

TruthfulQA - стандартный бенчмарк для оценки правдивости моделей. HaluEval - новый тест, выпущенный в 2025 году, который фокусируется на тонких галлюцинациях в длинных текстах. Цифры актуальны на февраль 2026.

Почему большие модели галлюцинируют?

Причины две. Первая - данные. Обучающие датасеты содержат шум, противоречия и просто ложную информацию. Модель запоминает все, включая мусор.

Вторая - архитектура. Современные LLM оптимизированы для генерации правдоподобного текста, а не для проверки фактов. Они выдают наиболее вероятное продолжение, а не истину.

Интересно, что мультимодальные модели вроде Qwen3 VL галлюцинируют даже tool-calls. Проблема глубже, чем кажется.

Что делать, если модель галлюцинирует?

Используйте RAG (Retrieval-Augmented Generation) - подключайте внешние базы знаний, чтобы модель имела доступ к актуальным и проверенным данным.
Настраивайте temperature и top_p - снижение температуры делает ответы более консервативными, но и более скучными.
Применяйте проверки на выходе - например, кросс-чек с другими моделями или факт-чекинг сервисами.
Выбирайте модель под задачу - для фактологических запросов лучше подходят модели с меньшим уровнем галлюцинаций, даже если они меньше.

Кстати, если вы работаете с квантованными моделями, учтите, что квантование может влиять на склонность к галлюцинациям. Не все форматы одинаково хороши.

Куда движется индустрия?

На 2026 год тренд - не увеличение параметров, а улучшение архитектур для снижения галлюцинаций. Такие компании, как Minimax, показывают, что можно добиться точности с меньшими моделями.

Ожидайте, что в 2026-2027 годах появятся модели, которые будут явно разделять "знание" и "предположение". Возможно, с специальными токенами или мета-информацией в выводе.

А пока - проверяйте все, что говорит вам нейросеть. Даже если это Qwen3.5-397B с ее 397 миллиардами параметров. Особенно если это Qwen3.5-397B.

Если вы хотите поэкспериментировать с моделями локально, обратите внимание на Unsloth - платформу для эффективного обучения и инференса LLM, которая поддерживает последние версии моделей.

Галлюцинации LLM: анализ Qwen3.5-397B и сравнение с Minimax