Скандал с Llama 3.3 8B: почему Meta раздала устаревшую версию?

Официальная версия против утекшей. Кто врёт?

Всё началось с типичного для Meta анонса: «Представляем Llama 3.3 8B, нашу новейшую компактную модель!» Сообщество обрадовалось. Наконец-то ответ Mistral Small. Но радость длилась недолго.

Первые же тесты показали странность. Модель, доступная через официальный API Meta, вела себя... знакомо. Слишком знакомо. Как будто мы уже её где-то видели.

Через несколько дней после релиза энтузиаст обнаружил баг в API Meta. Небольшая манипуляция с параметрами — и можно было скачать веса модели напрямую. Не ту, что предлагали всем. Другую. Как это произошло — читайте в нашем расследовании.

Две модели, один номер версии

Вот где начинается настоящий детектив. Сообщество быстро конвертировало утекшие веса в GGUF формат для локального запуска. И провело сравнительные тесты.

Результаты? Шокирующие.

Модель / Бенчмарк	MMLU (5-shot)	GSM8K (8-shot)	HumanEval
Llama 3.3 8B (официальный API)	68.2	79.1	26.8
Llama 3.3 8B (утечка весов)	71.5	82.4	31.2
Llama 3.1 8B	68.4	79.3	26.5

Видите разницу? Официальная «новая» модель практически идентична Llama 3.1 8B. Погрешность в пределах статистической ошибки. А утекшая версия показывает реальный прирост — особенно в коде (HumanEval).

💡

Разница в 4.4 пункта на HumanEval — это не мелочь. Это разница между «может написать простую функцию» и «справляется со сложными алгоритмами». Для разработчиков, которые ждали улучшений в кодинге, это принципиальный момент.

Почему Meta это сделала? Три теории

Сообщество строит догадки. Вот самые правдоподобные версии:

Теория №1: Банальная ошибка. Кто-то в Meta загрузил не ту модель в продакшен. Случайность. Но тогда почему не исправили за неделю?
Теория №2: Стратегическая задержка. Свежую модель придержали для корпоративных клиентов или будущего релиза. А сообществу подсунули «обновлённую» старушку, чтобы создать видимость движения.
Теория №3: Проблемы с безопасностью. Новая модель оказалась слишком хороша в чём-то опасном (jailbreak, генерация вредоносного кода). Её «зарубили», но отменить анонс было поздно.

Лично я склоняюсь ко второй версии. Слишком уж похоже на корпоративную тактику: «Дайте им что-нибудь, лишь бы не скучали». Помните историю с Solar-100B? Там тоже была подмена понятий, только масштабнее.

Что делать, если вы хотите настоящую Llama 3.3 8B?

Утекшие веса уже гуляют по интернету. Сообщество быстро сделало свою работу. Теперь модель доступна в удобных форматах.

Хотите попробовать? Вот минимальный код для запуска через llama.cpp:

# Скачиваем GGUF файл (пример, актуальную ссылку ищите на Hugging Face)
wget https://huggingface.co/user/Llama-3.3-8B-Instruct-GGUF/resolve/main/llama-3.3-8b-instruct.Q4_K_M.gguf

# Запускаем с базовыми параметрами
./main -m llama-3.3-8b-instruct.Q4_K_M.gguf \
  -n 256 \
  -p "Кто написал 'Войну и мир'?" \
  --temp 0.7

Или используйте новые возможности llama.cpp для ускорения. MXFP4 квантование даёт прирост скорости без серьёзной потери качества.

Важное предупреждение: Meta официально не выпускала эти веса. Используйте их на свой страх и риск. Хотя, честно говоря, вся экосистема локальных LLM построена на таких «неофициальных» релизах.

А что с бенчмарками? Они всё ещё врут?

Вот самый болезненный вопрос. Meta опубликовала результаты тестов для «официальной» модели. Эти цифры теперь висят на их сайте. И они... мягко говоря, не соответствуют реальности.

Сообщество перепроверило. Несколько независимых исследователей запустили тесты на идентичном железе с одинаковыми seed. Результат: утекшая модель стабильно обходит «официальную» на 3-5% по всем ключевым метрикам.

Значит ли это, что Meta намеренно исказила результаты? Или просто тестировали другую версию? Мы не знаем. Но факт остаётся фактом: если вы читаете бенчмарки на сайте Meta про Llama 3.3 8B — вы читаете про несуществующую модель.

Что это значит для будущего opensource-LLM?

Скандал с Llama 3.3 8B — не первый и не последний. Помните IQuest-Coder-V1? Там тоже была история с несоответствием заявлений и реальности.

Но здесь важнее другое: корпорации начинают играть в странные игры даже с относительно открытыми моделями. «Открытость» становится маркетинговым термином. Вы получаете доступ к API, но не к тому, что хотели.

Хорошая новость: сообщество научилось защищаться. Баги находят быстро. Веса выкладывают в открытый доступ. Независимые тесты проводят за считанные часы. Эта экосистема стала слишком быстрой для корпоративных уловок.

Мой прогноз? Meta либо официально выпустит настоящую Llama 3.3 8B в ближайшие недели (признав «ошибку»), либо тихо заменит модель в API. А пока — пользуйтесь утекшей версией. Она действительно лучше. И да, здесь есть инструкция, как её скачать и запустить.

P.S. Если вы думаете, что это исключение — посмотрите на «суверенные ИИ» разных стран. Там та же история, только с государственным финансированием.

Llama 3.3 8B: Meta раздала устаревшую модель, а мы её протестировали