Забудьте про MMLU и GSM8K. Настоящий тест — это заставить ИИ выиграть в «Каменный век»
Пока одни меряют модели абстрактными головоломками и школьными задачками, группа исследователей из Университета Карнеги-Меллона и Калифорнийского университета в Беркли придумала нечто более осязаемое. И куда более сложное. Их новый бенчмарк, опубликованный в начале 2026 года, использует движок Age of Empires II: Definitive Edition для оценки способностей больших языковых моделей к стратегическому планированию, пониманию сложных систем и — что самое интересное — генерации исполняемого кода на предметно-ориентированном языке (DSL).
Идея гениальна в своей простоте. Вместо того чтобы просить модель решить уравнение, её просят спланировать и запрограммировать победу в одной из самых сложных стратегических игр в истории. И это не просто «напиши скрипт». Это полноценное взаимодействие с игровым движком через API, где каждая ошибка в логике или синтаксисе ведёт к проигрышу от безжалостного AI-противника.
Актуальность на 20.02.2026: Бенчмарк использует последнюю версию движка Age of Empires II: DE (обновление 2025 года) и тестирует самые современные модели, включая Claude 3.7 Sonnet, GPT-4.5 Turbo Preview, Gemini 2.5 Pro, Llama 4 405B, а также локальных чемпионов вроде GLM-5-744B и Qwen2.5-72B.
Как это работает? От промпта до исполняемого кода
Архитектура бенчмарка напоминает игру в шахматы с компилятором. Модель получает промпт с описанием сценария: карта, начальные ресурсы, противник, цель (например, «победить в режиме «Регалия» за 30 минут»). Вместе с промптом идёт документация по DSL — специальному языку, который компилируется в команды для игрового движка.
DSL — это не Python и не JavaScript. Это минималистичный язык, созданный специально для управления юнитами, постройками и экономикой в AoE2. Он включает примитивы для:
- Сбора ресурсов:
assign_villager(wood, 6)илиresearch_lumber_camp() - Военной логики:
train_unit(militia, 5),attack_enemy_town_center() - Эволюции технологий:
advance_to_feudal_age() - Условной логики и циклов:
if gold > 200 then train_knight()
Задача модели — сгенерировать корректную программу на этом DSL, которая приведёт к победе. Затем программа выполняется в симуляторе, и её успешность оценивается по объективным метрикам: время победы, количество оставшихся юнитов, эффективность сбора ресурсов.
Кто в лидерах? Результаты, которые удивляют
Официальный лидерборд проекта (доступный на его GitHub-странице) по состоянию на февраль 2026 рисует неожиданную картину. Это не та гонка, где побеждает самая большая модель.
| Модель (версия 2025-2026) | Общий счёт | Качество кода | Стратегич. план | Примечание |
|---|---|---|---|---|
| Claude 3.7 Sonnet | 89.2 | 95 | 83 | Лучшая логика, но медленная |
| GPT-4.5 Turbo Preview | 85.7 | 88 | 84 | Быстрая, но иногда хаотичная |
| GLM-5-744B (локальная) | 82.1 | 85 | 79 | Сенсация среди локальных моделей |
| Gemini 2.5 Pro | 80.5 | 90 | 72 | Отличный код, слабая стратегия |
| Llama 4 405B | 78.9 | 82 | 76 | Стабильно, но без фантазии |
Главный сюрприз — это GLM-5-744B. Локальная модель, которую можно запустить на серьёзном железе, показала результат, сопоставимый с облачными гигантами. Она особенно хороша в составлении последовательных, надёжных планов, хотя иногда её код выглядит «шаблонно».
Gemini 2.5 Pro, с другой стороны, демонстрирует классическую проблему: она генерирует безупречный с точки зрения синтаксиса код, но её стратегические решения часто наивны. Она может идеально оптимизировать сбор ягод, забыв при этом построить казармы.
Чем это лучше старых бенчмарков?
Почему AoE2 — это прорыв, а не просто забавный эксперимент?
- Нет угадывания: В задачах по математике или коду модель может «узнать» ответ из обучающих данных. Выиграть в случайно сгенерированном сценарии AoE2, написав работающий код, — это чистое творчество и логика.
- Мультимодальность в действии: Модель должна связать текстовое описание механик (из документации) с логическими правилами и превратить это в исполняемые инструкции. Это близко к реальной задаче разработчика.
- Проверка на долгосрочное планирование: Игра требует баланса между краткосрочными (собирать еду) и долгосрочными (переходить в новый век) целями. Модели, которые хорошо справляются здесь, вероятно, лучше подходят для сложного управления контекстом в программировании.
- Это весело и наглядно: Неудачную стратегию можно увидеть в действии — ваша армия топчется на месте, а враг разрушает город. Это гораздо информативнее, чем сухой процент ошибок.
Кому пригодится этот бенчмарк? (И кому нет)
Идеально для:
- Разработчиков игрового AI: Если вы выбираете модель для создания умных NPC или диалоговых систем, этот тест покажет её способность к последовательному планированию в динамичном мире. Это следующий шаг после базовых тестов для игровых NPC.
- Исследователей LLM: Кто устал от synthetic benchmarks и хочет оценить модели в условиях, приближенных к «боевым».
- Энтузиастов локальных моделей: Позволяет сравнить свою настройку локальной LLM с облачными монстрами на нестандартной задаче.
Бесполезен для:
- Тех, кто ищет простой метрики «лучшая модель в мире». Этот бенчмарк — специализированный инструмент.
- Тех, у кого нет доступа к мощному железу для запуска симулятора. Хотя для тестирования только генерации кода (без симуляции) можно обойтись и без него.
Внимание, аппаратные требования: Полный цикл тестирования (симуляция) требует не только доступа к API моделей, но и достаточно производительной машины для запуска AoE2 в headless-режиме. Для чистой оценки кода подойдёт и обычный ПК.
Что дальше? Бенчмарк как тренд
Успех AoE2-бенчмарка уже спровоцировал волну похожих инициатив. В разработке находятся тесты на основе других сложных симуляторов — от логистики в Factorio до дипломатии в Crusader Kings III. Кажется, индустрия наконец-то поняла, что оценивать ИИ на абстрактных задачах — всё равно что тестировать пилота на симуляторе парковки.
Настоящий прорыв будет, когда такие бенчмарки станут стандартом при выборе модели для конкретного продукта. Вместо вопроса «Сколько баллов у этой LLM в MMLU?» мы будем спрашивать: «А эта модель сможет написать эффективный скрипт управления для моей стратегии или симуляции?»
И если вы до сих пор выбираете модель, глядя только на сводные таблицы, попробуйте задать ей вопрос не про капитализм и социализм, а про оптимальный build order для викингов на карте «Аравия». Ответ может рассказать о её реальных способностях больше, чем все традиционные тесты вместе взятые.