Когда модель не умеет играть в покерный рогалик

Большинство LLM отлично щёлкают задачки из учебника, переводят тексты и даже пишут софт. Но стоит дать им колоду карт и попросить переиграть босса в Balatro — они сыпятся. Evalatro — это свежий открытый бенчмарк, который использует механики нашумевшего покерного рогалика, чтобы проверить способность моделей к многоходовым рассуждениям и вероятностной стратегии.

Почему Balatro? И почему это больно для LLM

Balatro — игра, где надо собирать покерные комбинации, выбирать джокеров с уникальными эффектами и адаптироваться под случайные условия. Это требует вероятностного мышления, планирования на несколько ходов вперёд и гибкой смены стратегии. Именно эти навыки часто буксуют у современных LLM. Evalatro не просто эмулирует игру — он заставляет агента проходить раунды, передавая текстовые описания состояния и получая решения от модели. Результат — итоговый счёт после серии анте.

Ключевая идея: Evalatro оценивает не знание фактов, а способность принимать решения в динамичной среде с неполной информацией — то, чего не хватает многим тестам вроде GSM8K или MMLU.

Как устроен бенчмарк: от джокеров до анте

Запускаете скрипт — и модель подключается к симуляции Balatro через JSON-интерфейс. Агент видит:

текущую руку, доступные джокеры, талон;
историю сыгранных ходов;
целевой счёт для прохождения анте.

Модель должна выбрать: сбросить карты, сыграть комбинацию или купить джокера. Каждое действие пересчитывает состояние. После определённого числа раундов Evalatro выводит средний счёт — чем выше, тем лучше стратегия. Всё это без участия человека и с открытым кодом на GitHub.

Сравнение с другими бенчмарками: где Evalatro впереди, а где пока догоняет

Традиционные бенчмарки вроде GSM8K и MATH проверяют математические рассуждения, но статичны. BigBench шире, но не имитирует живую среду. AgentBench включает игровые задачи (например, WebShop), но Balatro — это чистый тест на стратегию без отвлекающих текстовых интерфейсов. Недавно мы писали об использовании Age of Empires 2 для оценки LLM — там акцент на долгосрочном планировании. Evalatro фокусируется на локальной оптимизации (выбор комбинации) и адаптации под случайность. А проект BalatroBot + BalatroLLM делал упор на эмуляцию игры локально, не предлагая метрик для сравнения моделей. Evalatro — первый бенчмарк, который стандартизирует такую оценку.

Бенчмарк	Динамическая среда	Стратегическое мышление	Открытый код
Evalatro	Да	Высокое	Да
AgentBench	Да	Среднее	Да
GSM8K	Нет	Низкое	Да
MATH	Нет	Низкое	Да

Кому это нужно: от исследователей до геймдизайнеров

Evalatro пригодится:

Исследователям LLM, которые хотят понять, насколько модель способна к стратегическим рассуждениям — и сравнить разные версии (GPT-5.2, Claude 4.5, Gemini 3.0). Подобные задачи актуальны и для автономных трейдинг-агентов, где нужно адаптироваться к рыночным сигналам.
Разработчикам AI-агентов, чтобы отлаживать механизмы принятия решений в условиях неопределённости — как в AI RPG с амнезией LLM.
Геймдизайнерам — для тестирования баланса игр или создания AI-противников.

Запуск и пример: от репозитория до первого прогона

Установка сводится к клонированию репозитория и запуску Python-скрипта. Ниже — минимальный пример, как запустить Evalatro с моделью через API (например, OpenAI или локальную vLLM).

git clone https://github.com/ProjectEvalatro/evalatro.git
cd evalatro
pip install -r requirements.txt
# Запуск с моделью через config.yaml
python run_benchmark.py --model gpt-4o --runs 5

Результаты сохраняются в CSV: счёт за каждый раунд, среднее, медиана. Можно быстро протестировать несколько моделей и визуализировать прогресс.

На заметку: Лучшие результаты пока показывает GPT-5.2, но небольшие открытые модели вроде Qwen2.5-72B неожиданно близки — возможно, из-за тренировки на данных игровых форумов.

Партнёрские рекомендации по запуску

Для массового тестирования моделей вам понадобятся GPU. Облачные инстансы с A100 позволяют прогнать бенчмарк за 15–20 минут. А чтобы дообучить модель под Balatro, пригодятся датасеты синтетических игровых траекторий.

В целом, Evalatro — это не просто игрушка. Он показывает, что текущие LLM всё ещё плохо справляются с нелинейными вероятностными задачами. Возможно, следующим шагом станут бенчмарки на основе карточных игр с блефом — там моделям придётся учиться врать. А пока есть открытый код и простой интерфейс, чтобы каждый мог сам проверить свою любимую модель на стратегические способности.

Подписаться на канал

Evalatro: новый открытый бенчмарк для LLM на основе игры Balatro — как тестировать рассуждения и стратегию