Age of Empires 2 бенчмарк для LLM: тест стратегии и генерации кода | 2026

Забудьте про MMLU и GSM8K. Настоящий тест — это заставить ИИ выиграть в «Каменный век»

Пока одни меряют модели абстрактными головоломками и школьными задачками, группа исследователей из Университета Карнеги-Меллона и Калифорнийского университета в Беркли придумала нечто более осязаемое. И куда более сложное. Их новый бенчмарк, опубликованный в начале 2026 года, использует движок Age of Empires II: Definitive Edition для оценки способностей больших языковых моделей к стратегическому планированию, пониманию сложных систем и — что самое интересное — генерации исполняемого кода на предметно-ориентированном языке (DSL).

Идея гениальна в своей простоте. Вместо того чтобы просить модель решить уравнение, её просят спланировать и запрограммировать победу в одной из самых сложных стратегических игр в истории. И это не просто «напиши скрипт». Это полноценное взаимодействие с игровым движком через API, где каждая ошибка в логике или синтаксисе ведёт к проигрышу от безжалостного AI-противника.

Актуальность на 20.02.2026: Бенчмарк использует последнюю версию движка Age of Empires II: DE (обновление 2025 года) и тестирует самые современные модели, включая Claude 3.7 Sonnet, GPT-4.5 Turbo Preview, Gemini 2.5 Pro, Llama 4 405B, а также локальных чемпионов вроде GLM-5-744B и Qwen2.5-72B.

Как это работает? От промпта до исполняемого кода

Архитектура бенчмарка напоминает игру в шахматы с компилятором. Модель получает промпт с описанием сценария: карта, начальные ресурсы, противник, цель (например, «победить в режиме «Регалия» за 30 минут»). Вместе с промптом идёт документация по DSL — специальному языку, который компилируется в команды для игрового движка.

DSL — это не Python и не JavaScript. Это минималистичный язык, созданный специально для управления юнитами, постройками и экономикой в AoE2. Он включает примитивы для:

Сбора ресурсов: assign_villager(wood, 6) или research_lumber_camp()
Военной логики: train_unit(militia, 5), attack_enemy_town_center()
Эволюции технологий: advance_to_feudal_age()
Условной логики и циклов: if gold > 200 then train_knight()

Задача модели — сгенерировать корректную программу на этом DSL, которая приведёт к победе. Затем программа выполняется в симуляторе, и её успешность оценивается по объективным метрикам: время победы, количество оставшихся юнитов, эффективность сбора ресурсов.

💡

Интересный нюанс: бенчмарк проверяет не только итоговый код, но и «рассуждения» модели. Исследователи просят LLM предоставить пошаговый план перед генерацией кода, что позволяет оценить, насколько модель действительно понимает стратегию, а не просто угадывает синтаксис.

Кто в лидерах? Результаты, которые удивляют

Официальный лидерборд проекта (доступный на его GitHub-странице) по состоянию на февраль 2026 рисует неожиданную картину. Это не та гонка, где побеждает самая большая модель.

Модель (версия 2025-2026)	Общий счёт	Качество кода	Стратегич. план	Примечание
Claude 3.7 Sonnet	89.2	95	83	Лучшая логика, но медленная
GPT-4.5 Turbo Preview	85.7	88	84	Быстрая, но иногда хаотичная
GLM-5-744B (локальная)	82.1	85	79	Сенсация среди локальных моделей
Gemini 2.5 Pro	80.5	90	72	Отличный код, слабая стратегия
Llama 4 405B	78.9	82	76	Стабильно, но без фантазии

Главный сюрприз — это GLM-5-744B. Локальная модель, которую можно запустить на серьёзном железе, показала результат, сопоставимый с облачными гигантами. Она особенно хороша в составлении последовательных, надёжных планов, хотя иногда её код выглядит «шаблонно».

Gemini 2.5 Pro, с другой стороны, демонстрирует классическую проблему: она генерирует безупречный с точки зрения синтаксиса код, но её стратегические решения часто наивны. Она может идеально оптимизировать сбор ягод, забыв при этом построить казармы.

Чем это лучше старых бенчмарков?

Почему AoE2 — это прорыв, а не просто забавный эксперимент?

Нет угадывания: В задачах по математике или коду модель может «узнать» ответ из обучающих данных. Выиграть в случайно сгенерированном сценарии AoE2, написав работающий код, — это чистое творчество и логика.
Мультимодальность в действии: Модель должна связать текстовое описание механик (из документации) с логическими правилами и превратить это в исполняемые инструкции. Это близко к реальной задаче разработчика.
Проверка на долгосрочное планирование: Игра требует баланса между краткосрочными (собирать еду) и долгосрочными (переходить в новый век) целями. Модели, которые хорошо справляются здесь, вероятно, лучше подходят для сложного управления контекстом в программировании.
Это весело и наглядно: Неудачную стратегию можно увидеть в действии — ваша армия топчется на месте, а враг разрушает город. Это гораздо информативнее, чем сухой процент ошибок.

Кому пригодится этот бенчмарк? (И кому нет)

Идеально для:

Разработчиков игрового AI: Если вы выбираете модель для создания умных NPC или диалоговых систем, этот тест покажет её способность к последовательному планированию в динамичном мире. Это следующий шаг после базовых тестов для игровых NPC.
Исследователей LLM: Кто устал от synthetic benchmarks и хочет оценить модели в условиях, приближенных к «боевым».
Энтузиастов локальных моделей: Позволяет сравнить свою настройку локальной LLM с облачными монстрами на нестандартной задаче.

Бесполезен для:

Тех, кто ищет простой метрики «лучшая модель в мире». Этот бенчмарк — специализированный инструмент.
Тех, у кого нет доступа к мощному железу для запуска симулятора. Хотя для тестирования только генерации кода (без симуляции) можно обойтись и без него.

Внимание, аппаратные требования: Полный цикл тестирования (симуляция) требует не только доступа к API моделей, но и достаточно производительной машины для запуска AoE2 в headless-режиме. Для чистой оценки кода подойдёт и обычный ПК.

Что дальше? Бенчмарк как тренд

Успех AoE2-бенчмарка уже спровоцировал волну похожих инициатив. В разработке находятся тесты на основе других сложных симуляторов — от логистики в Factorio до дипломатии в Crusader Kings III. Кажется, индустрия наконец-то поняла, что оценивать ИИ на абстрактных задачах — всё равно что тестировать пилота на симуляторе парковки.

Настоящий прорыв будет, когда такие бенчмарки станут стандартом при выборе модели для конкретного продукта. Вместо вопроса «Сколько баллов у этой LLM в MMLU?» мы будем спрашивать: «А эта модель сможет написать эффективный скрипт управления для моей стратегии или симуляции?»

И если вы до сих пор выбираете модель, глядя только на сводные таблицы, попробуйте задать ей вопрос не про капитализм и социализм, а про оптимальный build order для викингов на карте «Аравия». Ответ может рассказать о её реальных способностях больше, чем все традиционные тесты вместе взятые.

Age of Empires 2 стал новым тестом для LLM: как модели играют в стратегии и пишут код