Официальная версия против утекшей. Кто врёт?
Всё началось с типичного для Meta анонса: «Представляем Llama 3.3 8B, нашу новейшую компактную модель!» Сообщество обрадовалось. Наконец-то ответ Mistral Small. Но радость длилась недолго.
Первые же тесты показали странность. Модель, доступная через официальный API Meta, вела себя... знакомо. Слишком знакомо. Как будто мы уже её где-то видели.
Через несколько дней после релиза энтузиаст обнаружил баг в API Meta. Небольшая манипуляция с параметрами — и можно было скачать веса модели напрямую. Не ту, что предлагали всем. Другую. Как это произошло — читайте в нашем расследовании.
Две модели, один номер версии
Вот где начинается настоящий детектив. Сообщество быстро конвертировало утекшие веса в GGUF формат для локального запуска. И провело сравнительные тесты.
Результаты? Шокирующие.
| Модель / Бенчмарк | MMLU (5-shot) | GSM8K (8-shot) | HumanEval |
|---|---|---|---|
| Llama 3.3 8B (официальный API) | 68.2 | 79.1 | 26.8 |
| Llama 3.3 8B (утечка весов) | 71.5 | 82.4 | 31.2 |
| Llama 3.1 8B | 68.4 | 79.3 | 26.5 |
Видите разницу? Официальная «новая» модель практически идентична Llama 3.1 8B. Погрешность в пределах статистической ошибки. А утекшая версия показывает реальный прирост — особенно в коде (HumanEval).
Почему Meta это сделала? Три теории
Сообщество строит догадки. Вот самые правдоподобные версии:
- Теория №1: Банальная ошибка. Кто-то в Meta загрузил не ту модель в продакшен. Случайность. Но тогда почему не исправили за неделю?
- Теория №2: Стратегическая задержка. Свежую модель придержали для корпоративных клиентов или будущего релиза. А сообществу подсунули «обновлённую» старушку, чтобы создать видимость движения.
- Теория №3: Проблемы с безопасностью. Новая модель оказалась слишком хороша в чём-то опасном (jailbreak, генерация вредоносного кода). Её «зарубили», но отменить анонс было поздно.
Лично я склоняюсь ко второй версии. Слишком уж похоже на корпоративную тактику: «Дайте им что-нибудь, лишь бы не скучали». Помните историю с Solar-100B? Там тоже была подмена понятий, только масштабнее.
Что делать, если вы хотите настоящую Llama 3.3 8B?
Утекшие веса уже гуляют по интернету. Сообщество быстро сделало свою работу. Теперь модель доступна в удобных форматах.
Хотите попробовать? Вот минимальный код для запуска через llama.cpp:
# Скачиваем GGUF файл (пример, актуальную ссылку ищите на Hugging Face)
wget https://huggingface.co/user/Llama-3.3-8B-Instruct-GGUF/resolve/main/llama-3.3-8b-instruct.Q4_K_M.gguf
# Запускаем с базовыми параметрами
./main -m llama-3.3-8b-instruct.Q4_K_M.gguf \
-n 256 \
-p "Кто написал 'Войну и мир'?" \
--temp 0.7
Или используйте новые возможности llama.cpp для ускорения. MXFP4 квантование даёт прирост скорости без серьёзной потери качества.
Важное предупреждение: Meta официально не выпускала эти веса. Используйте их на свой страх и риск. Хотя, честно говоря, вся экосистема локальных LLM построена на таких «неофициальных» релизах.
А что с бенчмарками? Они всё ещё врут?
Вот самый болезненный вопрос. Meta опубликовала результаты тестов для «официальной» модели. Эти цифры теперь висят на их сайте. И они... мягко говоря, не соответствуют реальности.
Сообщество перепроверило. Несколько независимых исследователей запустили тесты на идентичном железе с одинаковыми seed. Результат: утекшая модель стабильно обходит «официальную» на 3-5% по всем ключевым метрикам.
Значит ли это, что Meta намеренно исказила результаты? Или просто тестировали другую версию? Мы не знаем. Но факт остаётся фактом: если вы читаете бенчмарки на сайте Meta про Llama 3.3 8B — вы читаете про несуществующую модель.
Что это значит для будущего opensource-LLM?
Скандал с Llama 3.3 8B — не первый и не последний. Помните IQuest-Coder-V1? Там тоже была история с несоответствием заявлений и реальности.
Но здесь важнее другое: корпорации начинают играть в странные игры даже с относительно открытыми моделями. «Открытость» становится маркетинговым термином. Вы получаете доступ к API, но не к тому, что хотели.
Хорошая новость: сообщество научилось защищаться. Баги находят быстро. Веса выкладывают в открытый доступ. Независимые тесты проводят за считанные часы. Эта экосистема стала слишком быстрой для корпоративных уловок.
Мой прогноз? Meta либо официально выпустит настоящую Llama 3.3 8B в ближайшие недели (признав «ошибку»), либо тихо заменит модель в API. А пока — пользуйтесь утекшей версией. Она действительно лучше. И да, здесь есть инструкция, как её скачать и запустить.
P.S. Если вы думаете, что это исключение — посмотрите на «суверенные ИИ» разных стран. Там та же история, только с государственным финансированием.