Когда HumanEval врет, а агент все равно тупит
В 2026 году разработчики AI-агентов уже не клюют на красивые цифры MMLU или HumanEval. Эти бенчмарки меряют знание фактов и базовый код, но не способность агента делать — ходить по файловой системе, запускать команды, искать баги в реальных репозиториях. Как справедливо заметили в нашем обзоре бенчмарков в open-source AI, стандартные тесты часто молчат о главном. И тут на сцену выходит процесс-ориентированный бенчмаркинг.
Именно такой подход зашит в инструменте pi coding agent — фреймворке для тестирования open-source моделей в задачах кодинга. В связке с библиотекой transformers от Hugging Face (актуальная версия 4.55.0 на момент 28.06.2026) он превращает оценку агентов из гадания на кофейной гуще в инженерную дисциплину.
pi coding agent: что под капотом
Название звучит загадочно, но суть проста. pi coding agent — это не модель, а среда для бенчмаркинга. Он запускает агента в изолированном Docker-контейнере, даёт задачу (например, «почини этот баг из реального issue на GitHub») и записывает всю последовательность действий: какие команды выполнял агент, какие файлы читал, как менял код. Потом сравнивает с эталонным решением не только результат, но и траекторию.
Почему это важно? Возьмите двух агентов, которые исправили один и тот же баг. Первый сделал это за 5 шагов, второй — за 50, и при этом попутно сломал три других модуля. Стандартный тест скажет «оба молодцы». Процесс-ориентированный скажет «второй — брак». И это отличает его от типичных лидербордов, где только процент решённых задач.
Кстати, AgentCPM-Explore с его 4B параметров на обычном ноутбуке как раз показывает, что маленькие модели с правильной RL-тренировкой могут быть эффективнее гигантов — но только если вы меряете процесс, а не финал.
Transformers как бэкенд для агентов
Чтобы подключить любую open-source модель к pi coding agent, нужен единый интерфейс. И тут приходит transformers. Библиотека позволяет загрузить модель, обернуть её в класс для генерации и вставить в пайплайн бенчмарка. С версии 4.50 в transformers появилась нативная поддержка агентных вызовов — через `agent.run()` и интеграцию с Hugging Face Jobs для параллельного тестирования сотен моделей.
Внимание: многие забывают, что transformers не оптимизирует модель под агентный режим. Если модель не обучали на данных с tool-use, она будет генерировать бред. Поэтому pi coding agent автоматически адаптирует промпт под архитектуру модели — это спасло уже сотни экспериментов.
Как НЕ надо делать бенчмаркинг
Самый частый косяк — запускать агента один раз с одним сидом и радоваться результату. Агенты стохастичны: тот же баг может быть починен с вероятностью 30% при температуре 0.1. Процесс-ориентированный подход требует многократного прогона и статистической оценки. pi coding agent облегчает это: он автоматически запускает серию тестов, усредняет метрики и показывает дисперсию.
Ещё одна ловушка — использовать сырые метрики вроде «pass@k». Они не показывают, сколько токенов сожрал агент и сколько раз он ходил по кругу. А для продакшна это критично. Как мы писали в статье про цены, открытые модели в 5–10 раз дешевле закрытых, но если агент делает в 3 раза больше лишних вызовов, экономия тает. Процесс-ориентированные бенчмарки как раз ловят такие паразитные шаги.
Что меряем (кроме результата)
| Метрика | Что даёт | Типичный «подвох» |
|---|---|---|
| Длина траектории (шаги) | Показывает эффективность планирования | Модель может жульничать — делать лишние бесполезные шаги, чтобы выглядеть «активной» |
| Коэффициент перезапусков | Сколько раз агент сбрасывал окружение из-за ошибки | Если модель падает слишком часто, она может просто перезагружать контейнер вместо исправления кода |
| Время выполнения (сек) | Реальная скорость для продакшна | Медленные модели могут быть точнее, но клиент не ждёт |
| Токенов на задачу | Стоимость инференса | Open-source модели часто экономнее, но не всегда — смотрите на суммарное потребление |
Эти метрики собираются автоматически через pi coding agent и экспортируются в JSON. Потом можно сравнивать модели на одном бенчмарке — например, на SWE-Bench Verified (последняя версия от июня 2026) или на AgentBench. И да, результаты часто сюрприз: Gemma 3 1B может показать меньше шагов, чем гигантский Llama 3.3 405B, потому что маленькая модель не пытается решить задачу «философски» — она сразу лезет в код.
Собираем всё вместе: практический сценарий
Допустим, вы разработчик, который хочет выбрать между несколькими open-source моделями для своего агента. Вы берёте pi coding agent (доступен на Hugging Face под лицензией Apache 2.0), подтягиваете модели через transformers (скачиваете веса за 5 минут), задаёте те же 50 задач из набора Agentic Tasks v2. Запускаете — и через час получаете таблицу с процесс-метриками. Не нужно писать обвязку для каждого теста, не нужно мучиться с Docker — всё уже готово.
Самое интересное: этот же инструмент можно использовать для continuous evaluation в CI/CD. Например, вы дообучаете модель на своих данных — запускаете бенчмарк и видите, не упала ли длина траектории. Или, наоборот, не увеличилось ли число перезапусков. Это даёт возможность отлавливать регрессии до того, как агент попадёт в продакшн.
А что с AgentToLeaP?
Кстати, в AgentCPM-Explore есть фреймворк AgentToLeaP — он тоже показывает «мыслительный процесс» агента, но на уровне внутренних рассуждений. pi coding agent смотрит на внешние действия. Вместе они дают полную картину: почему агент так подумал и что сделал. Это как нейроинтерфейс плюс видеонаблюдение. Думаю, к концу 2026 года мы увидим их объединение в одном инструменте.
Будущее: процесс вместо баллов
Сейчас, летом 2026, почти все серьёзные бенчмарки для агентов переходят на процесс-ориентированные метрики. OpenAI уже анонсировали Agent Process Score, Hugging Face интегрирует pi coding agent в свой Hub. И это не мода — это необходимость. Когда модели начинают стоить копейки (как мы писали в материале про открытые модели против закрытых), главным конкурентным преимуществом становится не ум, а эффективность. А её можно измерить только взглянув на процесс.
Мой прогноз: уже через год любой уважающий себя фреймворк для агентов будет включать встроенный процесс-анализатор. А те, кто продолжат хвастаться «95% на HumanEval», останутся в прошлом — вместе с доверчивыми инвесторами, которые повелись на фантики.