ИИ врет. Всегда. Но кто врет больше всех?
Мы проверили 14 топовых моделей на 27 января 2026 года. Тысячи промптов, сотни категорий ошибок, один вывод: твой любимый ИИ систематически тебя обманывает. И хуже всего то, что он делает это убедительно.
Важное уточнение: мы тестировали самые свежие версии моделей, доступные на дату публикации. GPT-4.5 Turbo (январь 2026), Claude 3.7 Sonnet, Gemini Ultra 2.5, Qwen 2.5 Max и другие. Старые версии в этом тесте не участвовали.
Методология: как мы ловили ИИ за руку
Никаких абстрактных "оцените качество ответа". Только бинарные проверки: факт либо правдив, либо ложен. Мы использовали Double-Blind AI Judging - два независимых эксперта-ИИ оценивали ответы третьей модели, не зная, чьи именно.
Тест включал:
- Фактические ошибки (выдуманные даты, несуществующие законы)
- Синтаксические галлюцинации (неправильные команды API, устаревший синтаксис)
- Контекстуальные искажения (перевирание цитат, добавление несуществующих деталей)
- Самоуверенные ошибки (когда модель уверенно утверждает ложь)
Таблица позора: кто на каком месте
| Модель | Версия (январь 2026) | Ошибок на 100 ответов | Самоуверенных галлюцинаций |
|---|---|---|---|
| Microsoft Copilot Pro | GPT-4.5 + Bing (2026) | 4.2 | 12% |
| Qwen 2.5 Max | Qwen2.5-72B-Max | 5.1 | 15% |
| GPT-4.5 Turbo | gpt-4.5-turbo-2026-01 | 7.8 | 18% |
| Claude 3.7 Sonnet | claude-3-7-sonnet-2026 | 8.3 | 22% |
| Gemini Ultra 2.5 | gemini-2.5-ultra | 11.4 | 27% |
| Grok-3 | grok-3-2026 | 18.9 | 41% |
Типичные ошибки 2026 года: что изменилось?
Раньше ИИ врал про исторические даты и научные факты. Сейчас он научился врать тоньше:
1. API-галлюцинации
Модели выдумывают несуществующие параметры в API-вызовах. Claude 3.7 уверенно добавляет флаг `temperature_calibration=True` в OpenAI API (его там нет с 2024 года). Gemini Ultra генерирует код для `gemini.analyze_sentiment()` с параметром `depth=3` - такого метода не существует.
2. Контекстуальные подмены
ИИ берет реальную цитату и добавляет в нее слова, которых там не было. Проверяли на текстах из нашей же статьи "Тест (c/t)^n как диагностика семантического заземления". Grok-3 изменил 30% цитат, добавив "экспертные пояснения".
3. Самоуверенное незнание
Это самая опасная категория. Модель не просто ошибается - она утверждает ложь с уверенностью 99%. "Да, функция pandas.read_excel() всегда требует указания sheet_name, иначе вы получите ошибку" (ложь, sheet_name не обязателен).
Как поймать ИИ на вранье: практические методы
Забудь про temperature=0. Это не помогает, как мы писали в статье об опасности temperature=0. Вот что работает в 2026:
Метод 1: Перекрестная проверка фактов
Спроси ту же информацию у трех разных моделей. Если все три говорят разное - где-то вранье. Если две согласны, а третья отличается - скорее всего, третья ошибается. Простой, но эффективный способ из промпта для сравнения LLM.
Метод 2: Запрос источников
"Приведи точную ссылку на документацию, где сказано..." Если модель начинает вилять - она врёт. Copilot с Bing обычно дает реальные ссылки. GPT-4.5 иногда генерирует битые URL.
Метод 3: Проверка через обратный промпт
Получил ответ? Переформулируй вопрос так: "Верно ли, что [повтор ответа]?" Если модель начинает сомневаться в своих же словах - это красный флаг.
Важно: даже эти методы не дают 100% гарантии. Некоторые модели (особенно Claude 3.7) умеют убедительно защищать свою ложь, приводя "логические цепочки".
Почему Copilot оказался лучшим?
Не потому что Microsoft сделала какую-то магию. Просто у Copilot есть Bing под капотом. Каждый спорный факт проверяется через поиск. И это работает.
Но есть нюанс: Copilot медленнее. Гораздо медленнее. Каждый ответ требует дополнительных 2-3 секунд на проверку. Платишь скоростью за точность.
Сюрприз теста: Qwen 2.5 Max
Китайская модель от Alibaba обогнала GPT-4.5 в технических вопросах. Особенно в программировании и математике. При этом Qwen почти бесплатен по сравнению с OpenAI.
Секрет? Возможно, дело в тренировке. Китайские разработчики давно используют методы вроде тех, что описаны в руководстве по оценке качества LLM. Или в специфических датасетах - кто знает, может быть, им помогла билингвальная эротика для обучения стилю.
Что делать с этими знаниями?
Выбирай модель под задачу. Для творчества - бери GPT-4.5 или Claude. Для фактов - Copilot. Для программирования - Qwen 2.5 Max. Для развлечения - Grok (но не верь ни одному его слову).
И главное: никогда не доверяй ИИ слепо. Даже самому точному. Проверяй критичные факты. Используй методы из гайда по борьбе с галлюцинациями.
Потому что в 2026 году ИИ врет лучше, чем когда-либо. Он научился делать это убедительно, последовательно, с "подтверждающими деталями". И единственный способ не попасться - всегда держать в голове: "Эта модель может ошибаться. Проверю"
А если нужно оценить неизвестную модель - используй методы из разоблачения Blackbox AI. И помни: даже temperature=0 не спасает от систематических галлюцинаций.
Тест проводился 20-26 января 2026 года. Участвовали: GPT-4.5 Turbo (янв 2026), Claude 3.7 Sonnet, Gemini Ultra 2.5, Qwen 2.5 Max, Grok-3, Copilot Pro (GPT-4.5+Bing), Mistral Large 2, Command R+, DeepSeek V3, Yi-Large, Llama 3.2 90B, Phi-4, и две закрытые корпоративные модели. Полные данные и методология - по запросу.