Самая дорогая игровая песочница для нейросетей
Пока одни исследователи гоняют агентов в Minecraft или StarCraft II, DeepMind выбрала другую арену — EVE Online. Вселенная, где один космический корабль может строиться неделями, а экономика напоминает реальный рынок сырья. В мае 2026 года команда опубликовала результаты впечатляющего эксперимента: агент освоил долгосрочное планирование на 100+ шагов, используя встроенную память и иерархические стратегии. И это не просто игра — это модель для логистики, управления цепочками поставок и даже биржевой торговли.
EVE Online известна своей жестокой песочницей: здесь потерять фрегат, который строился месяц — обычное дело. AI-агентам приходится учиться не только тактике боя, но и планированию ресурсов, дипломатии и долгосрочной экономической стратегии.
Почему EVE — это вызов, а не досуг
Большинство RL-бенчмарков (Atari, MuJoCo) имеют горизонт планирования в десятки шагов. EVE Online разрывает этот шаблон. Здесь цель может растягиваться на тысячи действий: от добычи руды до постройки капитального корабля. При этом агент видит только часть игровой карты — частичная наблюдаемость. Классические Q-сети и PPO тут пасуют: они просто не помнят, что решили делать час назад.
DeepMind пошла другим путем. Вместо того чтобы тратить вычислительные ресурсы на симуляцию всей игры (как это делалось в StarCraft II с AlphaStar), они создали упрощенную offline-зону внутри EVE — изолированный кластер серверов с повторяемыми условиями. Это позволило откатывать состояния и тестировать агентов на одних и тех же сценариях сотни раз.
Архитектура: память как у слона, планирование как у шахматиста
Исследователи применили гибридную архитектуру. В основе — трансформерная память, которая сохраняет ключевые события в сжатом виде. Не транскрипт всего диалога, а эмбеддинги состояний — текущие ресурсы, позиция, угрозы. Второй компонент — иерархический планировщик верхнего уровня. Он разбивает долгосрочную цель (например, «построить дредноут») на подзадачи: «добыть тритий», «купить чертежи», «нанять флот прикрытия». Каждую подзадачу решает отдельный low-level policy, обученный на внутренних наградах.
Это напоминает подход, который DeepMind уже опробовала в SIMA 2, где агент учился взаимодействовать с 3D-миром на естественном языке. Только в EVE нет голосовых команд — только действия через API. Зато есть шкала времени: некоторые задачи длятся по 30–40 часов реального времени.
Цифры, которые заставляют задуматься
Согласно отчету DeepMind от 8 мая 2026 года, их агент (назовем его EVE-Sage) на 72% превзошел лучшие open-source RL-базелайны по показателю «эффективность добычи ресурсов» при долгосрочных миссиях. Еще важнее — память: агент сохранял релевантный контекст через 150–200 шагов без деградации (против 30–50 у vanilla Transformer).
| Метрика | EVE-Sage | PPO baseline | IMPALA |
|---|---|---|---|
| Средняя длина эпизода (шаги) | 580 | 210 | 340 |
| Успешность построения корабля T1 | 87% | 22% | 45% |
| Горизонт планирования (шаги) | 100+ | 15 | 30 |
Не только космос: зачем это реальному миру
EVE Online — это модель сложной системы с многими агентами, экономикой и длинными циклами обратной связи. Техники, обкатанные здесь, уже начали перетекать в продакшен. DeepMind в партнерстве с логистической компанией Maersk тестирует агента для планирования контейнерных перевозок, где окно планирования — до 60 дней. Звучит знакомо? Именно такие задачи решали участники недавнего соревнования Google и NVIDIA по AI-агентам — разница лишь в том, что у них было 20 шагов, а у EVE-Sage — 600.
Кстати, DeepMind уже тестирует других агентов в многопользовательских средах с обманом и блефом — Game Arena с покером и Werewolf показала, что модели могут научиться скрывать намерения. В EVE Online это тоже актуально: один игрок может выдать себя за союзника, а потом уничтожить флот. Пока EVE-Sage не обучали обману — только кооперации с другими агентами.
Сравнение с другими подходами
Нельзя не вспомнить LingBot-World — открытую world model, которая тоже учится планировать, но на уровне визуальных сцен. EVE-Sage работает иначе: это не генеративная модель мира, а агент, который использует встроенную симуляцию экономики через API. Подход DeepMind оказался более масштабируемым для игр с частичной наблюдаемостью.
Проблемы, которые остались
Звучит логично, но есть нюанс. EVE-Sage требует 8 видеокарт A100 для обучения одного экземпляра. И это offline-версия, упрощенная. В боевом EVE Online с тысячами живых игроков он бы просто не вывез — противники слишком непредсказуемы. DeepMind честно признала: перенос в реальную игру — отдельный проект. Зато как симулятор для testbed — песочница идеальна.
К слову, Game Agent Coding League от GLM-5 и DeepSeek показала, что написание ботов для простых игр (типа Pong или кастомных карт) уже доступно open-source моделям. Но EVE Online — это уровень выше. Здесь нужна не только реакция, но и стратегическое мышление.
Что дальше
DeepMind не публикует код EVE-Sage (коммерческая тайна), но уже анонсировала открытый бенчмарк на основе логов EVE Online — с размеченными эпизодами долгосрочных планов. Дата релиза — конец 2026 года. Держу пари, это станет новым стандартом для continual learning и памяти в RL. А еще — отличным поводом для стартапов прикрутить memory-augmented агенты к своим продуктам. Ведь если агент может построить дредноут в EVE, то спланировать доставку пиццы за 40 минут — плевое дело.