Утечка Scale AI против Meta: расхождения в бенчмарках AI-моделей на 08.04.2026

Две версии реальности: что на самом деле показывают последние модели Meta

Неделю назад в сети всплыла таблица. Не абы какая, а внутренняя сводка от Scale AI с результатами тестов флагманских моделей. Автор утечки — не кто иной, как Alexandr Wang, основатель компании. Цифры в ней для моделей Meta Llama 3.2 70B и 405B разошлись с официальной таблицей бенчмарков, которую компания Зука опубликовала в марте 2026 года. Расхождения — не на проценты, а на целые пункты в ключевых тестах вроде MMLU и HumanEval. Сообщество зашевелилось.

Зачем это вообще кому-то нужно? А затем, что выбор модели для проекта в 2026 году — это пари на десятки тысяч долларов на GPU-время. Ошибешься в оценке — просадишь бюджет впустую. Официальные цифры от вендоров всегда вылизаны до блеска. Утечки — сырые, зато часто ближе к тому, что ты увидишь у себя в терминале.

Данные утечки основаны на внутреннем тестировании Scale AI по состоянию на начало апреля 2026 года. Meta официально на них не комментировала, но обновляла свою сравнительную таблицу 25 марта 2026.

Цифры, которые не хотят дружить

Возьмем три модели, которые сейчас у всех на слуху: Llama 3.2 70B, Llama 3.2 405B и свежую Llama 3.1 8B (да, ее до сих пор используют для edge-устройств). Посмотрим на разрыв между тем, что говорит Meta, и тем, что получилось у Scale AI.

Модель (актуальна на 08.04.2026)	Бенчмарк	Официально (Meta)	Утечка (Scale AI)	Разрыв
Llama 3.2 70B	MMLU (5-shot)	82.5%	79.8%	-2.7 п.п.
Llama 3.2 70B	HumanEval	78.0%	72.4%	-5.6 п.п.
Llama 3.2 405B	MMLU (5-shot)	86.1%	83.5%	-2.6 п.п.
Llama 3.2 405B	GSM8K (8-shot)	94.2%	91.0%	-3.2 п.п.
Llama 3.1 8B	HellaSwag (10-shot)	82.0%	80.1%	-1.9 п.п.

Картина одинаковая: утечка систематически занижает результаты. Особенно бьет по коду — HumanEval для 70B модели провалился на 5.6 пункта. Это не погрешность, это разница между «берем на проект» и «давайте поищем альтернативу».

💡

Для быстрого поиска альтернатив с проверенными на независимых тестах характеристиками используйте наш Models Explorer. Инструмент агрегирует данные с Hugging Face, LMSys и других открытых платформ, фильтруя откровенный маркетинг.

Три причины, почему бенчмарки врут (и это нормально)

Сразу видно три слоя проблем. Они всплывают не первый год, но в 2026 стали особенно очевидны.

Священные настройки инференса. Meta тестирует модели с определенной температурой, top_p и количеством промптов. Scale AI использует свои, оптимизированные под продакшен. Разница в пару градусов температуры может уронить результат на HumanEval на несколько процентов. Никто не публикует полные конфиги — вот и получаем «яблоки против апельсинов».
Версии датасетов и контаминация. MMLU обновляли. GSM8K чистили от утечек в обучающую выборку. Официальные тесты Meta могли проходить на слегка других данных. Как показал скандал с бенчмарками, ошибки в самих вопросах тестов — обычное дело.
Аппаратное обеспечение и софт. У Meta свои кластеры с чипами следующего поколения (возможно, уже MTIA v3). Scale AI гоняет тесты на смешанном парке A100/H100. Разные драйверы CUDA, разные версии трансформерных библиотек (PyTorch 2.4 против 2.5) — все это вносит шум.

Что делать, если тебе нужно выбрать модель сегодня?

Забудь про слепую веру в одну таблицу. Стратегия теперь должна быть такой:

Смотри на разброс. Ищи минимум три независимых источника оценок. Утечка Wang — отличный второй источник. Третьим может быть, например, независимый бенчмарк для text-to-SQL, если твоя задача близка.
Беги свой тест. Выдели 50 баксов на инференс, скачай модель (или используй endpoint) и прогнай ее на 100 своих, реальных примерах. Это даст больше информации, чем все MMLU мира. Как мы писали в сравнении моделей для анализа PDF, разрыв между академическими тестами и реальными файлами — колоссальный.
Считай не интеллект, а стоимость. Гонка за качеством закончилась, теперь считают секунды и доллары. Это не я придумал — об этом прямо говорят в материале про новую эру бенчмарков. Модель с результатом 79% MMLU, но в три раза дешевле в обслуживании, выигрывает у чемпиона с 82%.

Прогноз: к концу 2026 года появятся консорциумы, которые будут сертифицировать результаты бенчмарков, как аудиторы финансовую отчетность. Первые шаги в этом направлении уже делает сообщество вокруг RTEB для эмбеддингов. Для LLM это вопрос времени.

Контекст: война бенчмарков стала холодной

Утечка от Scale AI — не первый выстрел. Это часть большой игры, где каждый хочет контролировать нарратив о том, какая модель «лучшая». Meta продвигает свою экосистему. Scale AI продает услуги по оценке и разметке данных. Китайские вендоры вроде Qwen и DeepSeek, которые, судя по скачиваниям, обгоняют Llama, тоже публикуют свои таблицы с акцентом на сильные стороны.

Что в сухом остатке? Официальная таблица Meta — это рекламный буклет. Утечка Wang — это черновик инженерного отчета. Истина, как всегда, где-то посередине, но ближе к черновику. Не дай себя обмануть красивыми цифрами. Тестируй. Сравнивай. Считай деньги. А если хочешь понять, куда вообще движется вся эта гонка, послушай, что говорят люди изнутри — например, в интервью с лидом Google Cloud AI о трех границах возможностей моделей.

P.S. Если увидите новую утечку по Gemma 4 31B — дайте знать. Нам ее результаты в FoodTruck показались подозрительно идеальными.

Подписаться на канал

Разбор расхождений: официальная таблица моделей Meta против утечки от Alexandr Wang

Две версии реальности: что на самом деле показывают последние модели Meta

Цифры, которые не хотят дружить

Три причины, почему бенчмарки врут (и это нормально)

Что делать, если тебе нужно выбрать модель сегодня?

Контекст: война бенчмарков стала холодной

Подписывайтесь на наш канал!