Aletheia: математический агент Gemini с верификатором решений | Архитектура | AiManual
AiManual Logo Ai / Manual.
11 Фев 2026 Инструмент

Математический агент Aletheia: как Google заставил Gemini Deep Think проверять саму себя

Как работает агент Aletheia на Gemini Deep Think для решения сложных математических задач с итеративной проверкой и исправлением ошибок. Полный разбор архитекту

От Deep Think к Deep Proof

В конце 2024 Google представил режим Deep Think для Gemini — функцию, заставляющую модель "думать вслух". Это был прорыв для сложных рассуждений. Но математика требует большего, чем просто рассуждения. Ей нужна проверка. Абсолютная.

В начале 2026 года исследовательская команда на базе Gemini представила Aletheia — математического агента, который не просто думает. Он доказывает. И тут же проверяет свои доказательства. А если находит ошибку — начинает заново. Это не очередной чат-бот для решения уравнений. Это архитектура, построенная вокруг одной идеи: любое утверждение, сгенерированное ИИ, должно пройти проверку другим, более сфокусированным ИИ.

Ключевое отличие Aletheia от других математических агентов, вроде DeepMath на Qwen3, — это отдельный модуль верификатора на естественном языке. Он не запускает код в песочнице, чтобы проверить результат. Он читает текстовое доказательство шаг за шагом и ищет логические разрывы.

Архитектура: цепь из трех умов

Представьте конвейер. С одной стороны — сложная математическая проблема из препринта или исследовательской статьи. С другой — готовое, верифицированное решение. Между ними работают три специализированных экземпляра Gemini 3 Pro (последняя стабильная версия на февраль 2026).

1 Генератор гипотез (Solver)

Первый агент получает задачу и входит в режим Deep Think. Его работа — предложить возможный путь решения. Не идеальный, а просто возможный. Он разбивает проблему на подзадачи, предлагает леммы, набрасывает стратегию доказательства. Здесь разрешены пробелы и допущения. Главное — создать черновик, каркас рассуждения.

💡
Именно на этом этапе чаще всего возникают "креативные" галлюцинации — красивые, но неверные математические ходы. Aletheia не пытается их подавить. Она их поощряет, чтобы потом отсеять.

2 Критик-верификатор (Verifier)

Второй агент — сердце системы. Он получает черновик от Solver и переключается в режим гиперкритики. Его промпт буквально гласит: "Вы — скептический рецензент топового математического журнала. Ваша цель — найти первую же ошибку в этом доказательстве".

Он не генерирует новое решение. Он только анализирует. Каждый логический переход, каждое применение теоремы, каждое неравенство подвергается сомнению. Если ошибка найдена, Verifier не просто говорит "здесь ошибка". Он создает детальный контраргумент: какой шаг неверен, почему, и как это влияет на все последующие выводы.

3 Ревизор (Refiner)

Третий агент получает исходную задачу, черновик Solver и подробный отчет об ошибке от Verifier. Его миссия — исправить. Учитывая критику, он модифицирует доказательство, стараясь сохранить верные части и перестроить ошибочные. Исправленный черновик отправляется обратно Verifierу. Цикл повторяется.

Эта петля продолжается до одного из трех исходов: Verifier подтверждает корректность всего доказательства, система превышает лимит итераций (обычно 5-7), или Refiner понимает, что исходный подход тупиковый и запрашивает у Solver принципиально новую стратегию.

КомпонентМодель (на 11.02.2026)РольАналог в других системах
SolverGemini 3 Pro (Deep Think)Генерация первоначальной гипотезы и планаИсследовательский агент в классических deep research workflow
VerifierGemini 3 Pro (спец. промпт)Пошаговая проверка логики, поиск ошибок"Критик" в adversarial training, но здесь — в runtime
RefinerGemini 3 ProИнтеграция фидбека и исправление доказательстваИтеративный рерайтер в агентных workflow

Почему это работает, когда другие пасуют?

Потому что Aletheia разделяет невыполнимую задачу "придумать идеальное решение с первого раза" на три выполнимых: 1) придумать любую идею, 2) найти в ней дыры, 3) залатать дыры. Это та же самая методология, которую используют живые математики, рецензируя работы коллег.

Большинство агентских систем, описанных в материалах по борьбе с галлюцинациями, полагаются на внешние инструменты: выполнение кода, поиск в интернете, запросы к базам знаний. Aletheia верифицирует внутреннюю согласованность текста. Это делает ее особенно мощной в областях, где нет готовых вычислительных инструментов или где правильность — это вопрос логической дедукции, а не численного результата.

Главный недостаток? Стоимость. Каждая итерация Solver-Verifier-Refiner — это три вызова к Gemini 3 Pro с длинными контекстами. Без стратегического кэширования промежуточных результатов бюджет тает на глазах.

Кому нужен такой монстр?

Не студентам для списывания домашних заданий. Им хватит и обычного Gemini. Aletheia — инструмент для краевых случаев.

  • Исследователи-одиночки в математике и теоретической информатике. Агент выступает в роли бесконечно терпеливого и педантичного коллеги, который проверит набросок доказательства вашей новой леммы в 3 часа ночи.
  • Рецензенты научных журналов. Могут использовать верификатор как первый фильтр для поступающих статей по формальной логике.
  • Разработчики формальных верификаторов и систем автоматического доказательства теорем (например, для Coq или Lean). Aletheia может генерировать человекочитаемые наброски доказательств, которые потом можно формализовать.
  • Команды, работающие над задачами, подобными тому самому кейсу с багом в криптографии. Здесь нужна не просто генерация кода, а глубокий анализ его корректности.

Она не заменит человека. Но она радикально увеличивает его пропускную способность по проверке сложных умозаключений. Это не AGI. Это очень умная лупа для проверки логики.

Что дальше? От Aletheia к самообучающимся системам

Архитектура Aletheia — это прототип. Следующий логичный шаг — закрыть петлю. Каждый вердикт Verifier, каждый успешный патч от Refiner — это данные для дообучения самой модели Solver. Представьте систему, которая не только решает задачи, но и накапливает опыт о своих типичных ошибках, становясь со временем осторожнее и точнее в генерации первоначальных гипотез.

Пока же, главный урок Aletheia для индустрии в 2026 году прост: будущее за агентами, которые умеют сомневаться в себе. Не в режиме "возможно, я ошибаюсь", а в режиме отдельного, полноценного процесса проверки. Как показал успех Gemini в олимпиадных задачах, грубая сила вычислений уступает место архитектурной изобретательности. И первый, кто встроит такой встроенный скептицизм в коммерческий продукт для разработчиков (по аналогии с Gemini 3 Flash для vibe coding), получит фору в создании по-настоящему надежного ИИ.

Пока все спорят о размере контекстного окна, настоящая битва за разумность ИИ разворачивается в другом месте — в способности создавать и проверять длинные, сложные цепочки мысли. Aletheia — один из первых выстрелов в этой битве.