DeepMind тестирует планирование и память AI в EVE Online

Самая дорогая игровая песочница для нейросетей

Пока одни исследователи гоняют агентов в Minecraft или StarCraft II, DeepMind выбрала другую арену — EVE Online. Вселенная, где один космический корабль может строиться неделями, а экономика напоминает реальный рынок сырья. В мае 2026 года команда опубликовала результаты впечатляющего эксперимента: агент освоил долгосрочное планирование на 100+ шагов, используя встроенную память и иерархические стратегии. И это не просто игра — это модель для логистики, управления цепочками поставок и даже биржевой торговли.

EVE Online известна своей жестокой песочницей: здесь потерять фрегат, который строился месяц — обычное дело. AI-агентам приходится учиться не только тактике боя, но и планированию ресурсов, дипломатии и долгосрочной экономической стратегии.

Почему EVE — это вызов, а не досуг

Большинство RL-бенчмарков (Atari, MuJoCo) имеют горизонт планирования в десятки шагов. EVE Online разрывает этот шаблон. Здесь цель может растягиваться на тысячи действий: от добычи руды до постройки капитального корабля. При этом агент видит только часть игровой карты — частичная наблюдаемость. Классические Q-сети и PPO тут пасуют: они просто не помнят, что решили делать час назад.

DeepMind пошла другим путем. Вместо того чтобы тратить вычислительные ресурсы на симуляцию всей игры (как это делалось в StarCraft II с AlphaStar), они создали упрощенную offline-зону внутри EVE — изолированный кластер серверов с повторяемыми условиями. Это позволило откатывать состояния и тестировать агентов на одних и тех же сценариях сотни раз.

Архитектура: память как у слона, планирование как у шахматиста

Исследователи применили гибридную архитектуру. В основе — трансформерная память, которая сохраняет ключевые события в сжатом виде. Не транскрипт всего диалога, а эмбеддинги состояний — текущие ресурсы, позиция, угрозы. Второй компонент — иерархический планировщик верхнего уровня. Он разбивает долгосрочную цель (например, «построить дредноут») на подзадачи: «добыть тритий», «купить чертежи», «нанять флот прикрытия». Каждую подзадачу решает отдельный low-level policy, обученный на внутренних наградах.

Это напоминает подход, который DeepMind уже опробовала в SIMA 2, где агент учился взаимодействовать с 3D-миром на естественном языке. Только в EVE нет голосовых команд — только действия через API. Зато есть шкала времени: некоторые задачи длятся по 30–40 часов реального времени.

Цифры, которые заставляют задуматься

Согласно отчету DeepMind от 8 мая 2026 года, их агент (назовем его EVE-Sage) на 72% превзошел лучшие open-source RL-базелайны по показателю «эффективность добычи ресурсов» при долгосрочных миссиях. Еще важнее — память: агент сохранял релевантный контекст через 150–200 шагов без деградации (против 30–50 у vanilla Transformer).

Метрика	EVE-Sage	PPO baseline	IMPALA
Средняя длина эпизода (шаги)	580	210	340
Успешность построения корабля T1	87%	22%	45%
Горизонт планирования (шаги)	100+	15	30

Не только космос: зачем это реальному миру

EVE Online — это модель сложной системы с многими агентами, экономикой и длинными циклами обратной связи. Техники, обкатанные здесь, уже начали перетекать в продакшен. DeepMind в партнерстве с логистической компанией Maersk тестирует агента для планирования контейнерных перевозок, где окно планирования — до 60 дней. Звучит знакомо? Именно такие задачи решали участники недавнего соревнования Google и NVIDIA по AI-агентам — разница лишь в том, что у них было 20 шагов, а у EVE-Sage — 600.

Кстати, DeepMind уже тестирует других агентов в многопользовательских средах с обманом и блефом — Game Arena с покером и Werewolf показала, что модели могут научиться скрывать намерения. В EVE Online это тоже актуально: один игрок может выдать себя за союзника, а потом уничтожить флот. Пока EVE-Sage не обучали обману — только кооперации с другими агентами.

Сравнение с другими подходами

Нельзя не вспомнить LingBot-World — открытую world model, которая тоже учится планировать, но на уровне визуальных сцен. EVE-Sage работает иначе: это не генеративная модель мира, а агент, который использует встроенную симуляцию экономики через API. Подход DeepMind оказался более масштабируемым для игр с частичной наблюдаемостью.

💡

Главный инсайт: для долгосрочного планирования нужно не увеличивать глубину трансформера, а учить агента абстрагировать состояния. Иерархия — ключ.

Проблемы, которые остались

Звучит логично, но есть нюанс. EVE-Sage требует 8 видеокарт A100 для обучения одного экземпляра. И это offline-версия, упрощенная. В боевом EVE Online с тысячами живых игроков он бы просто не вывез — противники слишком непредсказуемы. DeepMind честно признала: перенос в реальную игру — отдельный проект. Зато как симулятор для testbed — песочница идеальна.

К слову, Game Agent Coding League от GLM-5 и DeepSeek показала, что написание ботов для простых игр (типа Pong или кастомных карт) уже доступно open-source моделям. Но EVE Online — это уровень выше. Здесь нужна не только реакция, но и стратегическое мышление.

Что дальше

DeepMind не публикует код EVE-Sage (коммерческая тайна), но уже анонсировала открытый бенчмарк на основе логов EVE Online — с размеченными эпизодами долгосрочных планов. Дата релиза — конец 2026 года. Держу пари, это станет новым стандартом для continual learning и памяти в RL. А еще — отличным поводом для стартапов прикрутить memory-augmented агенты к своим продуктам. Ведь если агент может построить дредноут в EVE, то спланировать доставку пиццы за 40 минут — плевое дело.

Подписаться на канал

Игровые песочницы для обучения AI: как DeepMind использует EVE Online для тестирования планирования и памяти