Если вы когда-нибудь пытались понять, какая модель на самом деле умнее — GPT-4o Ultra или Llama 4 400B — вы наверняка сталкивались с цифровым гаданием на бенчмарках. Один отчёт гордо рапортует accuracy 89.3%, другой — F1 0.91, третий — perplexity 4.2. И никто не знает, на каком датасете, с какими гиперпараметрами и, главное, не подкручивали ли промпты. К середине 2026 года с этим бардаком решили завязать окончательно.
Суть: Hugging Face внедряет обязательный формат отчётов EEE (EvalEval Evaluation) вместе с механизмом Community Evals — теперь каждая оценка должна быть машиночитаемой, верифицируемой и точно сравниваемой. Политики и регуляторы ликуют, инженеры пока чешут затылки.
Две стороны одной медали: формат и процесс
Инициатива EvalEval Coalition, запущенная ещё в 2024-м, к 2026 году обрела плоть. С одной стороны — JSON-схема EEE, которая задаёт жёсткий скелет для любого отчёта об оценке. С другой — Community Evals, децентрализованная система оценок через pull request'ы. Два инструмента, которые должны убить главную проблему лидербордов: их непрозрачность и невозможность перепроверить результаты.
Подробно структуру EEE мы разбирали здесь — это примерно 80 полей, от имени модели и датасета до единиц измерения метрик и гиперпараметров. Версия v0.2.3 на 30 июня 2026 года уже используется в продакшене. Каждый отчёт — это один JSON на один прогон одной модели на одном датасете. Никакой вольности.
Community Evals: когда сообщество берёт власть
Формат — это только половина дела. Второй важный кусок — Community Evals, о котором мы писали ранее. Система позволяет любому участнику сообщества отправить PR с результатами оценки модели на новом датасете или с новым бенчмарком. Эти результаты автоматически валидируются по EEE-схеме и попадают на страницу модели.
К 5 июля 2026 года на Hugging Face уже несколько сотен моделей имеют официальные Community Evals. Децентрализованные лидерборды стали реальностью: кто угодно может запустить свой бенчмарк, оформить его по EEE и добавить на страницу модели. Это не даёт корпорациям врать: если вы пиарите модель с «рекордными» цифрами, сообщество может запустить тот же тест и опровергнуть результат.
Но есть нюанс. Для инженеров, которые просто хотят выбрать модель под задачу, это не даёт немедленной выгоды. Скорее наоборот: появляется больше цифр, которые нужно анализировать. Политики и регуляторы, напротив, рады — теперь можно требовать отчёты в едином формате и сравнивать модели «на бумаге».
Что изменилось к лету 2026
Свежий пример: недавняя история с Apex-Testing, где модели кодинга провалились на приватных репозиториях. Без единого формата этот провал можно было бы объяснить «спецификой теста». Но Community Evals в EEE-формате зафиксировали точные метрики, и теперь любой желающий может воспроизвести результат.
Или взять исследование, которое показало, что 58% ошибок в датасетах HLE и GPQA искажают рейтинги. С EEE становится легче выявлять такие дефекты: понятно, какой датасет, какая выборка, какие гиперпараметры. Прозрачность бьёт по «резиновым» бенчмаркам.
Ещё один приятный побочный эффект — стандартизация метрик для эмбеддингов в RAG-системах. HUME-оценка, например, теперь тоже оформляется в EEE, что упрощает её интеграцию в пайплайны.
Кому это выгодно (а кому нет)
Прямые бенефициары — регуляторы, журналисты и потребители AI-решений. Они могут требовать отчёт в EEE-формате и быстро сравнить десятки моделей. Стартапам, которые строят продукты на базе LLM, теперь проще выбирать вендора — не нужно гадать, чьи цифры правдивее.
Но инженеры, которые пишут код для оценки, пока не получили прямой выгоды. Больше кода, больше валидаций, больше формальностей. Как обычно: прозрачность требует труда. Однако платформа Community Evals отбирает у корпораций право врать — и это стоит усилий.
Вердикт: стандарт, который приживётся?
EEE и Community Evals — не очередная «инициатива года». К июлю 2026 это уже работающая инфраструктура. Hugging Face активно продвигает её через авторизацию моделей: если у модели нет Community Evals в EEE-формате, она получает метку «непроверенная». Это заставляет разработчиков участвовать в системе, иначе их модели будут аутсайдерами в лидербордах.
Прогноз: к 2027 году EEE-формат станет де-факто обязательным для любой публикации, претендующей на серьёзность. Корпорации, которые привыкли рисовать радужные графики, будут вынуждены раскрывать карты. Сообщество получит единый язык для сравнения моделей — и это, возможно, лучший подарок AI-индустрии со времён открытия трансформеров.
Хотите глубже? Посмотрите, как сообщество уже выносит мусор из избы бенчмарков — и как MLLM-as-a-Judge evaluator в Strands Evals автоматизирует оценку image-to-text задач. Всё это теперь в единой EEE-обёртке.