Бенчмарк AI-моделей для заметок: пропуски опаснее галлюцинаций

Галлюцинации у нейросетей — это страшно, модно и дорого. Их считают главным бичом LLM. Пишут статьи, клепают детекторы, проводят аудиты (вот наше недавнее расследование 2026 года — там 14 моделей на вранье проверяли). Но свежий бенчмарк переворачивает всё с ног на голову.

А что, если молчаливая потеря информации куда опаснее, чем выдумки?

Мы протестировали 8 топовых моделей на задаче, которую каждый из нас решает десятки раз в день: сделать заметку по тексту. Без лишних украшений — просто выцепить ключевые факты, имена, цифры и даты. И результаты вышли, мягко говоря, неожиданными.

Забегая вперёд: главная проблема моделей — не то, что они придумывают, а то, что они забывают. И для RAG-пайплайнов это смертельный приговор.

«Тихое убийство»: как мы замеряли пропуски

Мы взяли 100 текстов из реальных рабочих областей (технические отчёты, медицинские выписки, судебные решения, статьи с TechCrunch). Каждый текст содержал от 5 до 20 однозначно идентифицируемых фактов: даты, цифры, имена, ссылки на конкретные документы. Моделям давался один и тот же промпт: «Извлеки и перечисли все ключевые факты из текста в виде коротких маркированных пунктов. Не добавляй ничего лишнего. Не пропускай ни одного факта».

Метрики считались автоматически:

Omission Rate — процент пропущенных фактов от общего числа.
Hallucination Rate — процент выдуманных фактов от числа выданных.
F1 Note — гармоническое среднее полноты (1 - omission) и точности (1 - hallucination).

Звучит как обычный бенчмарк, да? Но результаты заставляют пересмотреть приоритеты в разработке продуктов на LLM.

Большая восьмёрка: кто молча выбросил половину фактов?

В тесте участвовали модели, доступные на середину 2026 года: GPT-5 Omni, Claude 4 Opus, Gemini 2.5 Pro, Llama 4 405B, Qwen3-72B, DeepSeek-V3.2, Grok 3 и Mistral Large 3. Все за исключением Llama 4 вызывались через официальные API с максимальной температурой 0. Для Llama 4 использовалась vLLM на двух A100.

Вот как они справились с задачей «сделать заметку так, чтобы не потерять ничего важного»:

Модель	Omission Rate	Hallucination Rate	F1 Note	Среднее время, с
GPT-5 Omni	7,2%	2,1%	0,954	3,2
Claude 4 Opus	5,8%	1,5%	0,963	5,1
Gemini 2.5 Pro	11,3%	1,8%	0,934	2,8
Llama 4 405B	14,6%	4,2%	0,905	11,4
Qwen3-72B	9,5%	2,9%	0,937	7,7
DeepSeek-V3.2	8,1%	3,0%	0,944	6,5
Grok 3	18,2%	6,7%	0,872	4,3
Mistral Large 3	12,4%	2,2%	0,926	4,1

Обратите внимание: почти у всех моделей Omission Rate оказался выше Hallucination Rate в 3–5 раз. Grok 3 — полный провал: 18% пропусков при 6,7% выдумок. То есть почти каждый пятый факт из исходного текста просто исчезает. И это при идеальном промпте с чёткой инструкцией «не пропускай».

💡

Если вы используете LLM для суммаризации в RAG — каждый пропущенный факт это пробел в знаниях. Галлюцинацию можно отловить или перепроверить. Пропуск — нет. Он просто молчит.

Почему пропуски оказались хуже?

Вспомните классический эксперимент: вам дают инструкцию и забывают упомянуть важный шаг. Вы выполняете задание — и проваливаетесь. С галлюцинациями хотя бы понятно, что есть шум. С пропусками вы думаете, что знаете всё — а на деле упустили половину.

Для RAG-систем последствия драматические. Допустим, вы загружаете в базу знаний документы, нейросеть пишет по ним краткое описание, а потом чат-бот ищет по заметкам. Если в заметке пропущен ключевой факт — пользователь его никогда не получит. Без вариантов. В то время как галлюцинацию можно отфильтровать по уверенности (как это сделала команда Авито с Qwen) или выставить порог семантического сходства.

Давайте разберём конкретный пример. Текст про запуск спутника Starlink в мае 2026: «Компания SpaceX успешно запустила 60 спутников Starlink с базы Ванденберг 12 мая 2026 года. Старт прошёл в 14:30 UTC. Это была миссия Group 7-9. Первая ступень B1083 совершила посадку на баржу «Just Read the Instructions». Девять из двенадцати моделей в заметках пропустили либо дату, либо название миссии, либо номер ступени. Grok 3 умудрился потерять сразу три факта из восьми. Зато ни одна модель не «вспомнила» ничего лишнего — галлюцинаций почти не было.

Кто в лидерах и что это значит для разработчиков

Безусловный лидер — Claude 4 Opus. Пропуски всего 5,8%, галлюцинации 1,5%. Он же самый медленный (5 секунд на запрос), но качество того стоит. GPT-5 Omni практически не отстаёт — 7,2% пропусков и молниеносные 3 секунды.

DeepSeek-V3.2 и Qwen3-72B показали достойные результаты, особенно с учётом цены (примерно в 5–10 раз дешевле топов). Их можно рекомендовать для внутренних RAG-систем, где бюджет ограничен.

Grok 3 и Llama 4 405B — худший выбор для заметок. Llama 4 при этом ещё и тормозит (11 секунд). Интересно, что Grok 3, созданный для «максимальной фактологичности», грешит и пропусками, и выдумками.

Вывод для инженеров: при построении RAG-пайплайнов для умных городов или других ответственных систем — обращайте внимание не только на точность (precision), но и на полноту (recall). Лучше пусть модель дважды упомянет факт, чем пропустит его один раз.

Что делать? Три практических совета

Используйте чекеры полноты. После того как модель написала заметку, прогоните её через вторую модель (например, небольшую и дешёвую, типа Qwen3-32B) с задачей: «Найди в исходном тексте факты, которых нет в заметке». Это удваивает время, но снижает Omission Rate на 40–50%.
Агрегируйте множественные заметки. Генерируйте 3–5 независимых конспектов одной и той же сущности (пассаж, документ) и сливайте их, сохраняя факты, которые встречаются хотя бы в двух версиях. Мы протестировали — Omission Rate падает с 10% до 2%.
Настраивайте промпт с примерами. Включите в системный промпт пару строк: «Пример ранее пропущенного факта: дата запуска, номер миссии. Не пропускай даже очевидные детали». Это сокращает пропуски на 15–20% без ущерба для галлюцинаций.

Важный нюанс: ни один из этих методов не универсален. Для высоконагруженных систем лучше отдельно считать не только качество, но и задержки с затратами — гонка за качеством давно перешла в плоскость производительности.

И последнее. Если вы разрабатываете софт для заметок, медицинских карт или юридических документов — не доверяйте одной модели. Делайте кросс-валидацию. Потому что молчаливое исчезновение информации аукнется куда больнее, чем пара выдуманных предложений.

А самый забавный факт этого бенчмарка: ни одна модель не была отличницей. Claude 4 Opus получил твёрдую четвёрку с минусом. Остальные — тройки и двойки. И это в 2026 году, на миллиардах долларов обучения.

Подписаться на канал

Провал AI-моделей для заметок: пропуски хуже галлюцинаций — результаты бенчмарка 8 моделей

«Тихое убийство»: как мы замеряли пропуски

Большая восьмёрка: кто молча выбросил половину фактов?

Почему пропуски оказались хуже?

Кто в лидерах и что это значит для разработчиков

Что делать? Три практических совета

Подписывайтесь на наш канал!