Evalatro: бенчмарк LLM на Balatro - тест стратегии и рассуждений | AiManual
AiManual Logo Ai / Manual.
15 Июн 2026 Инструмент

Evalatro: новый открытый бенчмарк для LLM на основе игры Balatro — как тестировать рассуждения и стратегию

Открытый бенчмарк Evalatro оценивает LLM через игру Balatro: стратегия, адаптация, планирование. Код на GitHub. Сравнение с AgentBench, GSM8K.

Реклама
partv2

Когда модель не умеет играть в покерный рогалик

Большинство LLM отлично щёлкают задачки из учебника, переводят тексты и даже пишут софт. Но стоит дать им колоду карт и попросить переиграть босса в Balatro — они сыпятся. Evalatro — это свежий открытый бенчмарк, который использует механики нашумевшего покерного рогалика, чтобы проверить способность моделей к многоходовым рассуждениям и вероятностной стратегии.

Почему Balatro? И почему это больно для LLM

Balatro — игра, где надо собирать покерные комбинации, выбирать джокеров с уникальными эффектами и адаптироваться под случайные условия. Это требует вероятностного мышления, планирования на несколько ходов вперёд и гибкой смены стратегии. Именно эти навыки часто буксуют у современных LLM. Evalatro не просто эмулирует игру — он заставляет агента проходить раунды, передавая текстовые описания состояния и получая решения от модели. Результат — итоговый счёт после серии анте.

Ключевая идея: Evalatro оценивает не знание фактов, а способность принимать решения в динамичной среде с неполной информацией — то, чего не хватает многим тестам вроде GSM8K или MMLU.

Как устроен бенчмарк: от джокеров до анте

Запускаете скрипт — и модель подключается к симуляции Balatro через JSON-интерфейс. Агент видит:

  • текущую руку, доступные джокеры, талон;
  • историю сыгранных ходов;
  • целевой счёт для прохождения анте.

Модель должна выбрать: сбросить карты, сыграть комбинацию или купить джокера. Каждое действие пересчитывает состояние. После определённого числа раундов Evalatro выводит средний счёт — чем выше, тем лучше стратегия. Всё это без участия человека и с открытым кодом на GitHub.

Сравнение с другими бенчмарками: где Evalatro впереди, а где пока догоняет

Традиционные бенчмарки вроде GSM8K и MATH проверяют математические рассуждения, но статичны. BigBench шире, но не имитирует живую среду. AgentBench включает игровые задачи (например, WebShop), но Balatro — это чистый тест на стратегию без отвлекающих текстовых интерфейсов. Недавно мы писали об использовании Age of Empires 2 для оценки LLM — там акцент на долгосрочном планировании. Evalatro фокусируется на локальной оптимизации (выбор комбинации) и адаптации под случайность. А проект BalatroBot + BalatroLLM делал упор на эмуляцию игры локально, не предлагая метрик для сравнения моделей. Evalatro — первый бенчмарк, который стандартизирует такую оценку.

Бенчмарк Динамическая среда Стратегическое мышление Открытый код
EvalatroДаВысокоеДа
AgentBenchДаСреднееДа
GSM8KНетНизкоеДа
MATHНетНизкоеДа

Кому это нужно: от исследователей до геймдизайнеров

Evalatro пригодится:

  • Исследователям LLM, которые хотят понять, насколько модель способна к стратегическим рассуждениям — и сравнить разные версии (GPT-5.2, Claude 4.5, Gemini 3.0). Подобные задачи актуальны и для автономных трейдинг-агентов, где нужно адаптироваться к рыночным сигналам.
  • Разработчикам AI-агентов, чтобы отлаживать механизмы принятия решений в условиях неопределённости — как в AI RPG с амнезией LLM.
  • Геймдизайнерам — для тестирования баланса игр или создания AI-противников.

Запуск и пример: от репозитория до первого прогона

Установка сводится к клонированию репозитория и запуску Python-скрипта. Ниже — минимальный пример, как запустить Evalatro с моделью через API (например, OpenAI или локальную vLLM).

git clone https://github.com/ProjectEvalatro/evalatro.git
cd evalatro
pip install -r requirements.txt
# Запуск с моделью через config.yaml
python run_benchmark.py --model gpt-4o --runs 5

Результаты сохраняются в CSV: счёт за каждый раунд, среднее, медиана. Можно быстро протестировать несколько моделей и визуализировать прогресс.

На заметку: Лучшие результаты пока показывает GPT-5.2, но небольшие открытые модели вроде Qwen2.5-72B неожиданно близки — возможно, из-за тренировки на данных игровых форумов.

Партнёрские рекомендации по запуску

Для массового тестирования моделей вам понадобятся GPU. Облачные инстансы с A100 позволяют прогнать бенчмарк за 15–20 минут. А чтобы дообучить модель под Balatro, пригодятся датасеты синтетических игровых траекторий.

В целом, Evalatro — это не просто игрушка. Он показывает, что текущие LLM всё ещё плохо справляются с нелинейными вероятностными задачами. Возможно, следующим шагом станут бенчмарки на основе карточных игр с блефом — там моделям придётся учиться врать. А пока есть открытый код и простой интерфейс, чтобы каждый мог сам проверить свою любимую модель на стратегические способности.

Подписаться на канал