Gemini 3 Pro сдал Humanity’s Last Exam: прорыв в reasoning | AiManual
AiManual Logo Ai / Manual.
29 Дек 2025 Новости

Gemini 3 против Humanity’s Last Exam: как модель сдала самый сложный тест

Как модель Gemini 3 Pro справилась с самым сложным бенчмарком Humanity’s Last Exam. Анализ результатов, сравнение с конкурентами и что это значит для будущего И

Последний экзамен человечества: что это за тест?

В мире искусственного интеллекта появился новый эталон сложности — Humanity’s Last Exam (HLE). Этот бенчмарк был создан не для того, чтобы просто проверить знания модели, а чтобы оценить её способность к глубоким рассуждениям, пониманию контекста и решению многошаговых задач, которые требуют настоящего интеллекта.

В отличие от стандартных тестов, HLE включает в себя вопросы из самых разных областей: от философии и логики до программирования и анализа сложных систем. Это попытка создать «последний рубеж» — тест, который сможет пройти только модель, приближающаяся к человеческому уровню мышления.

Важно: Humanity’s Last Exam — это не просто набор вопросов. Это комплексный тест, оценивающий способность ИИ к абстрактному мышлению, пониманию причинно-следственных связей и решению задач, не имеющих очевидного ответа.

Gemini 3 Pro вступает в бой: результаты тестирования

Недавно Google представила новую версию своей флагманской модели — Gemini 3 Pro. И одной из первых проверок её возможностей стало именно прохождение Humanity’s Last Exam. Результаты оказались впечатляющими.

Модель Humanity’s Last Exam Score Ключевая сильная сторона
Gemini 3 Pro 89.7% Многошаговые рассуждения, понимание контекста
GPT-4 Turbo 84.2% Креативность, генерация текста
Claude 3 Opus 86.1% Анализ длинных документов
Предыдущий лидер (анонимный) 87.5% Специализированная доработка

Результат в 89.7% не просто устанавливает новый рекорд — он показывает качественный скачок в способности модели к рассуждениям. Особенно Gemini 3 Pro преуспела в задачах, требующих:

  • Понимания скрытых предпосылок в вопросах
  • Построения логических цепочек из 5+ шагов
  • Анализа противоречивой информации
  • Применения знаний из одной области к задачам в другой

Как устроен прорыв: архитектура Gemini 3

Успех Gemini 3 Pro в тестировании — не случайность, а результат целенаправленной работы над архитектурой модели. Google сделала ставку на несколько ключевых улучшений:

1 Улучшенный механизм внимания

Новая архитектура внимания позволяет модели лучше улавливать зависимости между далеко отстоящими друг от друга элементами в тексте. Это критически важно для решения сложных логических задач.

2 Многоэтапное reasoning

Gemini 3 Pro использует технику «размышления вслух», где модель последовательно выстраивает цепочку рассуждений перед тем, как дать окончательный ответ. Это похоже на то, как человек решает сложную математическую задачу.

# Упрощённый пример reasoning-подхода Gemini 3
question = "Если все люди смертны, и Сократ — человек, то что следует?"

# Внутренний процесс рассуждения модели:
steps = [
    "1. Первая посылка: все люди смертны.",
    "2. Вторая посылка: Сократ — человек.",
    "3. Из первой посылки следует: если X — человек, то X смертен.",
    "4. Применяем к Сократу: Сократ — человек → Сократ смертен.",
    "5. Вывод: Сократ смертен."
]

answer = "Сократ смертен."

3 Контекстуальная память

Модель научилась лучше сохранять и использовать контекст на протяжении всего диалога, что особенно важно для многошаговых задач в HLE, где каждый следующий вопрос может зависеть от ответов на предыдущие.

💡
Интересно, что подход Google к безопасности ИИ перекликается с инициативами других компаний. Например, OpenAI ищет «начальника по готовности» для решения аналогичных проблем, что показывает общую тенденцию в индустрии.

Что это значит для будущего ИИ?

Успех Gemini 3 Pro в Humanity’s Last Exam — это не просто техническое достижение. Это сигнал о том, что ИИ-модели становятся способны решать задачи, которые раньше считались исключительно человеческими.

Предупреждение: С ростом возможностей ИИ в рассуждениях возникают новые этические вопросы. Способность модели понимать сложные концепции и делать выводы требует более продуманного подхода к её применению в чувствительных областях.

Вот несколько областей, где прорыв в reasoning может иметь наибольшее значение:

  1. Научные исследования: Модели смогут выдвигать гипотезы и планировать эксперименты
  2. Финансовый анализ: Как в случае с банками, перестраивающими финтех вокруг ИИ, улучшенное reasoning позволит лучше прогнозировать риски
  3. Медицина: Диагностика сложных случаев, требующих анализа множества факторов
  4. Образование: Персонализированное обучение, адаптирующееся к стилю мышления ученика

Человек vs ИИ: кто кого?

Парадоксально, но чем умнее становятся ИИ-модели, тем больше людей начинают вести себя по шаблонам, напоминая роботов. Как отмечается в статье «AI — враг в отражении?», мы наблюдаем интересную инверсию: ИИ учится рассуждать как человек, а люди всё чаще действуют по алгоритмам.

Humanity’s Last Exam был задуман как «последний рубеж», но Gemini 3 Pro показала, что этот рубеж может быть преодолён. Вопрос теперь не в том, сможет ли ИИ пройти тест, а в том, что будет следующим вызовом. И как мы, люди, будем использовать эти мощные инструменты, не теряя собственной человечности.

Успехи в одной области ИИ часто стимулируют развитие других. Например, прогресс в языковых моделях может помочь таким проектам, как «Нейрометеум» от Яндекса, где сложный анализ данных требует продвинутых возможностей reasoning.

🔍
С ростом сложности моделей вопросы приватности становятся всё актуальнее. Рекомендуем ознакомиться с расследованием «Куда уходят ваши диалоги с ChatGPT», чтобы понимать, как защитить свои данные при работе с ИИ.

Заключение: не конец, а новое начало

Прохождение Humanity’s Last Exam моделью Gemini 3 Pro — это важная веха, но не финишная прямая. Скорее, это начало новой эры в развитии искусственного интеллекта, где на первый план выходят не объёмы данных или параметров, а качество рассуждений и понимания.

Следующие несколько лет покажут, как эти способности будут интегрированы в реальные продукты и услуги. И главный вопрос, который стоит перед нами: как создать симбиоз человеческого и искусственного интеллекта, где сильные стороны каждого дополняют друг друга, а не конкурируют.