Когда модель не умеет играть в покерный рогалик
Большинство LLM отлично щёлкают задачки из учебника, переводят тексты и даже пишут софт. Но стоит дать им колоду карт и попросить переиграть босса в Balatro — они сыпятся. Evalatro — это свежий открытый бенчмарк, который использует механики нашумевшего покерного рогалика, чтобы проверить способность моделей к многоходовым рассуждениям и вероятностной стратегии.
Почему Balatro? И почему это больно для LLM
Balatro — игра, где надо собирать покерные комбинации, выбирать джокеров с уникальными эффектами и адаптироваться под случайные условия. Это требует вероятностного мышления, планирования на несколько ходов вперёд и гибкой смены стратегии. Именно эти навыки часто буксуют у современных LLM. Evalatro не просто эмулирует игру — он заставляет агента проходить раунды, передавая текстовые описания состояния и получая решения от модели. Результат — итоговый счёт после серии анте.
Ключевая идея: Evalatro оценивает не знание фактов, а способность принимать решения в динамичной среде с неполной информацией — то, чего не хватает многим тестам вроде GSM8K или MMLU.
Как устроен бенчмарк: от джокеров до анте
Запускаете скрипт — и модель подключается к симуляции Balatro через JSON-интерфейс. Агент видит:
- текущую руку, доступные джокеры, талон;
- историю сыгранных ходов;
- целевой счёт для прохождения анте.
Модель должна выбрать: сбросить карты, сыграть комбинацию или купить джокера. Каждое действие пересчитывает состояние. После определённого числа раундов Evalatro выводит средний счёт — чем выше, тем лучше стратегия. Всё это без участия человека и с открытым кодом на GitHub.
Сравнение с другими бенчмарками: где Evalatro впереди, а где пока догоняет
Традиционные бенчмарки вроде GSM8K и MATH проверяют математические рассуждения, но статичны. BigBench шире, но не имитирует живую среду. AgentBench включает игровые задачи (например, WebShop), но Balatro — это чистый тест на стратегию без отвлекающих текстовых интерфейсов. Недавно мы писали об использовании Age of Empires 2 для оценки LLM — там акцент на долгосрочном планировании. Evalatro фокусируется на локальной оптимизации (выбор комбинации) и адаптации под случайность. А проект BalatroBot + BalatroLLM делал упор на эмуляцию игры локально, не предлагая метрик для сравнения моделей. Evalatro — первый бенчмарк, который стандартизирует такую оценку.
| Бенчмарк | Динамическая среда | Стратегическое мышление | Открытый код |
|---|---|---|---|
| Evalatro | Да | Высокое | Да |
| AgentBench | Да | Среднее | Да |
| GSM8K | Нет | Низкое | Да |
| MATH | Нет | Низкое | Да |
Кому это нужно: от исследователей до геймдизайнеров
Evalatro пригодится:
- Исследователям LLM, которые хотят понять, насколько модель способна к стратегическим рассуждениям — и сравнить разные версии (GPT-5.2, Claude 4.5, Gemini 3.0). Подобные задачи актуальны и для автономных трейдинг-агентов, где нужно адаптироваться к рыночным сигналам.
- Разработчикам AI-агентов, чтобы отлаживать механизмы принятия решений в условиях неопределённости — как в AI RPG с амнезией LLM.
- Геймдизайнерам — для тестирования баланса игр или создания AI-противников.
Запуск и пример: от репозитория до первого прогона
Установка сводится к клонированию репозитория и запуску Python-скрипта. Ниже — минимальный пример, как запустить Evalatro с моделью через API (например, OpenAI или локальную vLLM).
git clone https://github.com/ProjectEvalatro/evalatro.git
cd evalatro
pip install -r requirements.txt
# Запуск с моделью через config.yaml
python run_benchmark.py --model gpt-4o --runs 5
Результаты сохраняются в CSV: счёт за каждый раунд, среднее, медиана. Можно быстро протестировать несколько моделей и визуализировать прогресс.
На заметку: Лучшие результаты пока показывает GPT-5.2, но небольшие открытые модели вроде Qwen2.5-72B неожиданно близки — возможно, из-за тренировки на данных игровых форумов.
Партнёрские рекомендации по запуску
Для массового тестирования моделей вам понадобятся GPU. Облачные инстансы с A100 позволяют прогнать бенчмарк за 15–20 минут. А чтобы дообучить модель под Balatro, пригодятся датасеты синтетических игровых траекторий.
В целом, Evalatro — это не просто игрушка. Он показывает, что текущие LLM всё ещё плохо справляются с нелинейными вероятностными задачами. Возможно, следующим шагом станут бенчмарки на основе карточных игр с блефом — там моделям придётся учиться врать. А пока есть открытый код и простой интерфейс, чтобы каждый мог сам проверить свою любимую модель на стратегические способности.