Почему reasoning-модели ИИ галлюцинируют: математическая ошибка OpenAI и Google на 2026 | AiManual
AiManual Logo Ai / Manual.
20 Янв 2026 Новости

Математика галлюцинаций ИИ: почему reasoning-модели ошибаются чаще и можно ли это исправить

Профессор математики объясняет фундаментальные причины галлюцинаций LLM в 2026. Почему reasoning-модели ошибаются чаще и можно ли это исправить.

Код красного уровня в OpenAI: математика против разума

В конце 2025 года в OpenAI объявили "код красного". Не из-за утечки данных или хакерской атаки. А из-за математики. Точнее, из-за её отсутствия там, где она должна быть.

Reasoning-модели - Claude 3.5 Sonnet Thinking, GPT-4.5 Reasoning, Gemini 2.5 Pro Chain-of-Thought - все они обещали логику. Четкую, последовательную, человеческую. Вместо этого получили хитроумные способы галлюцинировать с видом эксперта по термодинамике.

Новейшие тесты на 20.01.2026 показывают: reasoning-модели ошибаются в логических задачах на 23% чаще, чем их обычные версии. И делают это увереннее.

Профессор против матрицы

Доктор Елена Воробьева, профессор математики из МГУ, последние два года изучает именно этот парадокс. Её команда разобрала по косточкам архитектуры всех крупных LLM.

"Это не баг, - говорит Воробьева. - Это фундаментальное ограничение трансформерной архитектуры. Модели не решают задачи. Они имитируют процесс решения".

Разница тонкая, но критичная. Когда вы просите ИИ сложить 2+2, он не выполняет арифметическую операцию. Он ищет в своих весах наиболее вероятную последовательность токенов, которая следует за "2+2=".

💡
Reasoning-модели 2025-2026 годов (Claude 3.5 Sonnet Thinking, GPT-4.5 Reasoning) добавляют к этому внутренний монолог. Но монолог - тоже просто генерация текста. Не вычисление.

Почему сложное - проще простого

Вот что бесит математиков: ИИ часто правильно решает сложные интегралы, но с треском проваливается на элементарной арифметике.

"Потому что интегралы в датасетах обычно идут с решениями, - объясняет Воробьева. - Модель запоминает шаблон. А вот 7*8? Это слишком просто, чтобы давать с решением в обучающих данных".

В её лаборатории провели эксперимент: дали одной модели 1000 задач по комбинаторике. 80% правильных ответов. Затем те же задачи, но с измененными числовыми значениями - 32% точности. Модель запомнила паттерны, а не научилась комбинировать.

Это напрямую связано с фундаментальной ошибкой OpenAI, Google и Anthropic в подходе к обучению.

Антропический тупик

Особенно досталось Anthropic. Их Claude 3.5 Sonnet с включенным Thinking mode в некоторых тестах показывает результаты хуже, чем с выключенным.

"Они добавили reasoning как фичу, а не как архитектурное изменение, - комментирует Воробьева. - Это как прикрутить реактивный двигатель к телеге. Да, шумит громче, но едет не обязательно быстрее".

Проблема в том, что внутренний reasoning-процесс - это просто еще один слой генерации. Модель генерирует текст "я думаю, что...", затем на основе этого текста генерирует ответ. Если первый текст содержит ошибку, второй будет логически последовательным, но неверным.

Это тот самый категориальный провал, о котором математики предупреждали еще в 2024 году.

Модель (версия на 20.01.2026)Точность без reasoningТочность с reasoningРазница
GPT-4.5 Base78%--
GPT-4.5 Reasoning-71%-7%
Claude 3.5 Sonnet82%--
Claude 3.5 Thinking-76%-6%
Gemini 2.5 Pro75%--
Gemini 2.5 CoT-69%-6%

Векторное пространство не дружит с логикой

Корень проблемы - в представлении знаний. LLM работают в векторных пространствах, где "корова" ближе к "молоку", чем к "трактору". Логические операции так не работают.

"Если А, то Б" требует булевой алгебры. А трансформеры оперируют вероятностями следующего токена. Это разные вселенные", - говорит Воробьева.

Её команда пыталась fine-tune модели на чисто логических задачах. Результат? Модели стали лучше справляться с конкретными типами задач, но потеряли в общих способностях.

Это похоже на проблему с вычислением времени, только в сто раз сложнее.

Можно ли это исправить?

Здесь мнения расходятся. Инженеры из OpenAI уверены, что scaling laws решат все. Больше данных, больше параметров, больше вычислений - и reasoning появится сам собой.

Математики смеются. "Это как надеяться, что если построить достаточно большую печь, она начнет писать сонеты", - говорит Воробьева.

Есть три подхода, которые тестируют в 2026 году:

  • Гибридные архитектуры: LLM + символический ИИ. Модель генерирует идеи, а отдельный модуль проверяет логику. Медленно, дорого, но работает
  • Нейро-символическое обучение: модель учится не только на текстах, но и на формальных правилах. Пока что в зачаточном состоянии
  • Отказ от reasoning как фичи: сделать его архитектурной необходимостью. Если GLM-4.6V можно ускорить, отключив reasoning, значит, это опциональная надстройка, а не основа

Что делать прямо сейчас?

Пока математики и инженеры спорят, пользователям приходится жить в реальности 2026 года.

Воробьева дает практический совет: "Никогда не доверяйте reasoning-моделям ответы на вопросы, где важна точность. Используйте их для генерации идей, а проверку делайте отдельно".

Её лаборатория разработала простой метод: задавайте один вопрос три раза в разной формулировке. Если ответы совпадают - возможно, модель не галлюцинирует. Если различаются - точно галлюцинирует.

Это грубо, но работает лучше, чем доверять внутреннему монологу модели.

Важный нюанс: reasoning-модели отлично справляются с задачами, где нужно имитировать рассуждения эксперта. Для консультаций, мозговых штурмов, творческих задач. Но там, где требуется строгая логика - будьте осторожны.

Будущее: агенты или тупик?

Все сейчас говорят про агентные архитектуры. Автономные ИИ, которые сами планируют, действуют, достигают целей. Но если базовые модели не умеют рассуждать последовательно, что будут делать агенты?

"Они будут красиво галлюцинировать цепочки действий, - предупреждает Воробьева. - И это опасно".

Она ссылается на исследование о том, как ошибки в логике нейросетей угрожают жизни и свободе. Если ИИ принимает медицинские или юридические решения на основе ошибочных рассуждений, последствия будут серьезными.

Есть и оптимистичный сценарий. Возможно, reasoning-модели 2026 года - это как первые паровозы, которые ехали медленнее лошадей. Нужно время, чтобы технология созрела.

Но математики настаивают: без фундаментальных изменений в архитектуре ИИ, без интеграции с математической логикой, reasoning останется красивой обманкой.

Воробьева заканчивает разговор предупреждением: "Если вы используете reasoning-модели для чего-то важного, всегда проверяйте их выводы. Они не думают. Они имитируют мышление. И эта имитация иногда бывает очень убедительной".