Когда HumanEval врет, а агент все равно тупит

В 2026 году разработчики AI-агентов уже не клюют на красивые цифры MMLU или HumanEval. Эти бенчмарки меряют знание фактов и базовый код, но не способность агента делать — ходить по файловой системе, запускать команды, искать баги в реальных репозиториях. Как справедливо заметили в нашем обзоре бенчмарков в open-source AI, стандартные тесты часто молчат о главном. И тут на сцену выходит процесс-ориентированный бенчмаркинг.

💡

Суть идеи: оценивать не только финальный ответ, а каждый шаг агента — как он строит план, в какой момент ошибается, сколько раз перезапускает контейнер. Это как судить повара не по готовому блюду, а по тому, как он режет лук и не жжёт сковородку.

Именно такой подход зашит в инструменте pi coding agent — фреймворке для тестирования open-source моделей в задачах кодинга. В связке с библиотекой transformers от Hugging Face (актуальная версия 4.55.0 на момент 28.06.2026) он превращает оценку агентов из гадания на кофейной гуще в инженерную дисциплину.

pi coding agent: что под капотом

Название звучит загадочно, но суть проста. pi coding agent — это не модель, а среда для бенчмаркинга. Он запускает агента в изолированном Docker-контейнере, даёт задачу (например, «почини этот баг из реального issue на GitHub») и записывает всю последовательность действий: какие команды выполнял агент, какие файлы читал, как менял код. Потом сравнивает с эталонным решением не только результат, но и траекторию.

Почему это важно? Возьмите двух агентов, которые исправили один и тот же баг. Первый сделал это за 5 шагов, второй — за 50, и при этом попутно сломал три других модуля. Стандартный тест скажет «оба молодцы». Процесс-ориентированный скажет «второй — брак». И это отличает его от типичных лидербордов, где только процент решённых задач.

Кстати, AgentCPM-Explore с его 4B параметров на обычном ноутбуке как раз показывает, что маленькие модели с правильной RL-тренировкой могут быть эффективнее гигантов — но только если вы меряете процесс, а не финал.

Transformers как бэкенд для агентов

Чтобы подключить любую open-source модель к pi coding agent, нужен единый интерфейс. И тут приходит transformers. Библиотека позволяет загрузить модель, обернуть её в класс для генерации и вставить в пайплайн бенчмарка. С версии 4.50 в transformers появилась нативная поддержка агентных вызовов — через `agent.run()` и интеграцию с Hugging Face Jobs для параллельного тестирования сотен моделей.

Внимание: многие забывают, что transformers не оптимизирует модель под агентный режим. Если модель не обучали на данных с tool-use, она будет генерировать бред. Поэтому pi coding agent автоматически адаптирует промпт под архитектуру модели — это спасло уже сотни экспериментов.

Как НЕ надо делать бенчмаркинг

Самый частый косяк — запускать агента один раз с одним сидом и радоваться результату. Агенты стохастичны: тот же баг может быть починен с вероятностью 30% при температуре 0.1. Процесс-ориентированный подход требует многократного прогона и статистической оценки. pi coding agent облегчает это: он автоматически запускает серию тестов, усредняет метрики и показывает дисперсию.

Ещё одна ловушка — использовать сырые метрики вроде «pass@k». Они не показывают, сколько токенов сожрал агент и сколько раз он ходил по кругу. А для продакшна это критично. Как мы писали в статье про цены, открытые модели в 5–10 раз дешевле закрытых, но если агент делает в 3 раза больше лишних вызовов, экономия тает. Процесс-ориентированные бенчмарки как раз ловят такие паразитные шаги.

Что меряем (кроме результата)

Метрика	Что даёт	Типичный «подвох»
Длина траектории (шаги)	Показывает эффективность планирования	Модель может жульничать — делать лишние бесполезные шаги, чтобы выглядеть «активной»
Коэффициент перезапусков	Сколько раз агент сбрасывал окружение из-за ошибки	Если модель падает слишком часто, она может просто перезагружать контейнер вместо исправления кода
Время выполнения (сек)	Реальная скорость для продакшна	Медленные модели могут быть точнее, но клиент не ждёт
Токенов на задачу	Стоимость инференса	Open-source модели часто экономнее, но не всегда — смотрите на суммарное потребление

Эти метрики собираются автоматически через pi coding agent и экспортируются в JSON. Потом можно сравнивать модели на одном бенчмарке — например, на SWE-Bench Verified (последняя версия от июня 2026) или на AgentBench. И да, результаты часто сюрприз: Gemma 3 1B может показать меньше шагов, чем гигантский Llama 3.3 405B, потому что маленькая модель не пытается решить задачу «философски» — она сразу лезет в код.

Собираем всё вместе: практический сценарий

Допустим, вы разработчик, который хочет выбрать между несколькими open-source моделями для своего агента. Вы берёте pi coding agent (доступен на Hugging Face под лицензией Apache 2.0), подтягиваете модели через transformers (скачиваете веса за 5 минут), задаёте те же 50 задач из набора Agentic Tasks v2. Запускаете — и через час получаете таблицу с процесс-метриками. Не нужно писать обвязку для каждого теста, не нужно мучиться с Docker — всё уже готово.

Самое интересное: этот же инструмент можно использовать для continuous evaluation в CI/CD. Например, вы дообучаете модель на своих данных — запускаете бенчмарк и видите, не упала ли длина траектории. Или, наоборот, не увеличилось ли число перезапусков. Это даёт возможность отлавливать регрессии до того, как агент попадёт в продакшн.

А что с AgentToLeaP?

Кстати, в AgentCPM-Explore есть фреймворк AgentToLeaP — он тоже показывает «мыслительный процесс» агента, но на уровне внутренних рассуждений. pi coding agent смотрит на внешние действия. Вместе они дают полную картину: почему агент так подумал и что сделал. Это как нейроинтерфейс плюс видеонаблюдение. Думаю, к концу 2026 года мы увидим их объединение в одном инструменте.

💡

Совет: если вы тестируете агента на задаче из реального проекта, не поленитесь добавить в pi coding agent кастомную метрику «влияние на соседние модули». Агент может «починить» баг, тихо удалив половину кода. Процесс-ориентированный подход это заметит, а pass@k — нет.

Будущее: процесс вместо баллов

Сейчас, летом 2026, почти все серьёзные бенчмарки для агентов переходят на процесс-ориентированные метрики. OpenAI уже анонсировали Agent Process Score, Hugging Face интегрирует pi coding agent в свой Hub. И это не мода — это необходимость. Когда модели начинают стоить копейки (как мы писали в материале про открытые модели против закрытых), главным конкурентным преимуществом становится не ум, а эффективность. А её можно измерить только взглянув на процесс.

Мой прогноз: уже через год любой уважающий себя фреймворк для агентов будет включать встроенный процесс-анализатор. А те, кто продолжат хвастаться «95% на HumanEval», останутся в прошлом — вместе с доверчивыми инвесторами, которые повелись на фантики.

Подписаться на канал

Бенчмаркинг агентов: где заканчиваются цифры и начинается истина (работа с pi coding agent и transformers)