Сколько весит модель?

Вес модели в FP16 — около 6 ГБ. В 4-битной квантизации — примерно 2.5 ГБ.

Какие требования к железу для локального запуска?

Минимум 8 ГБ ОЗУ для 4-битной версии, 16 ГБ — для FP16. CPU с поддержкой AVX2 ускоряет работу.

ByteDance 3B open-source модель: обзор и тесты

Когда ByteDance — китайский гигант, подаривший миру TikTok и CapCut — выпускает open-source модель, это всегда событие. Но когда эта модель весит всего 3 миллиарда параметров, а на бенчмарках бьёт многие 7B? Тут невольно хочется присмотреться.

Модель, о которой идёт речь, получила рабочее название Seed-LLM-3B (финальное имя может отличаться). Она недоступна через китайские репозитории, а выложена на Hugging Face под лицензией MIT — полная свобода действий.

Что внутри? Архитектура и фишки

ByteDance не стали изобретать велосипед: архитектура — классический decoder-only transformer с Grouped-Query Attention (48 ключей на 32 головы). Контекстное окно — 32 768 токенов. При этом модель обучали на смеси из 3.2 триллионов токенов — цифра вполне взрослая для такого размера.

Главный трюк — длинный контекст. Большинство 3B моделей (Phi-3.5-mini, Qwen2.5-3B) ограничены 8-16K токенами. Здесь же — полные 32K, что открывает дорогу для анализа кода, обработки длинных документов и даже многозадачных агентов.

💡

Важный нюанс: модель использует RoPE (Rotary Position Embedding) с частотой, оптимизированной под 32K. Если вы планируете расширять контекст дальше — придётся повозиться с интерполяцией.

Цифры, которые заставляют чесать затылок

ByteDance привели результаты на стандартных бенчмарках. Честно говоря, я не поверил глазам, когда увидел MMLU-Pro — 62.7%. Это выше, чем у многих 7B моделей полугодовой давности. А GSM8K (математика) — 84.9% — почти уровень Phi-3.5-mini, хотя тот специально затачивали под математику.

HumanEval (код) — 73.2% pass@1. Не рекорд, но для 3B — достойно. А вот что удивило — скорость генерации. На обычном MacBook M2 с 8GB ОЗУ модель выдаёт 25-30 токенов/сек в 4-битной квантизации. Это делает её одним из самых быстрых вариантов для локального запуска среди моделей среднего размера.

Для сравнения, BitNet b1.58 и bitnet.cpp показывают чуть более скромные результаты на аналогичных задачах — до 60% на MMLU и около 70% на код.

Кого она бьёт? Сравнение с конкурентами

Давайте пройдёмся по основным игрокам в той же весовой категории (3B-4B).

Модель	MMLU-Pro	GSM8K	HumanEval	Контекст
Seed-LLM-3B	62.7	84.9	73.2	32K
Qwen2.5-3B	58.1	79.3	68.5	32K
Phi-3.5-mini 3.8B	64.5	85.5	75.0	4K
Jan v3 Instruct 4B	60.2	80.1	70.8	16K

Как видите, Seed-LLM-3B уверенно обходит Qwen2.5-3B по всем метрикам. А Phi-3.5-mini чуть впереди, но с крошечным контекстом — 4K против 32K. Jan v3 Instruct 4B тоже позади, хотя он известен своей эффективностью в tool calling.

Если же говорить про экстремально маленькие модели, Bonsai-8B (хоть и 8B, но 1-битная) даёт 65.7 MMLU-R — это ближе к Seed-LLM-3B, но требует вдвое больше параметров. А BitMamba-2-1B — совсем другой класс: быстрее, но слабее по качеству.

Как это работает на практике? Пример использования

Допустим, вы хотите запустить модель локально для обработки документов или генерации кода. Вот минимальный код на Python с использованием Hugging Face Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "bytedance/seed-llm-3b"  # гипотетический путь
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

prompt = "Напиши функцию на Python для сортировки списка чисел."
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

На машине с 16GB RAM это заработает «из коробки». Для 8GB лучше скачать 4-битную квантизацию через llama.cpp или использовать exllama.

А вот более продвинутый сценарий: использование модели как агента с tool calling. Для этого потребуется фреймворк вроде LangChain или Aider. 11 маленьких LLM на CPU показали, что для tool calling критичен контекст, и Seed-LLM-3B с его 32K — отличный кандидат.

Красивые цифры — не всё. Где подвох?

Первое: модель китайская. Даже при MIT-лицензии есть вероятность, что на некоторых задачах (особенно связанных с китайской культурой или политикой) она будет выдавать неожиданные ответы. Второе: человеческий язык — средний. Для русского, возможно, придётся дообучать или искать русифицированные версии. Третье: в тестах код-генерации модель хорошо справляется с Python и JavaScript, но с более редкими языками (Rust, Go) бывают ошибки.

Кстати, про дообучение. Набор инструментов от ByteDance включает готовый скрипт на базе PEFT/LoRA. Запускается за 3-4 часа на одной A100. ZAYA1-8B, например, тоже хорошо поддаётся fine-tuning, но требует больше ресурсов.

Кому это нужно?

Разработчикам софта, которые хотят локальный кодер для help'а без интернета.
Исследователям NLP, ищущим компактную и быструю базу для экспериментов.
Стартапам, которым нужно автоматизировать обработку документов на клиентской стороне.
Энтузиастам, у которых ноутбук с 16 GB ОЗУ и желание поиграться.

Особенно стоит обратить внимание на тех, кто использует Arcee Trinity Large Preview (400B) через API — для больших задач он незаменим, но для повседневных мелочей можно использовать локальную 3B модель, сэкономив и время, и деньги.

Вывод: стоит ли качать?

Если вам нужна модель 3B с высоким качеством, длинным контекстом и готовностью к fine-tuning — это лучший вариант на данный момент из открытых. Да, Phi-3.5-mini чуть сильнее на коротких задачах, но её контекст — катастрофа. Seed-LLM-3B развязывает руки.

Скептики скажут: «А почему не взять ZAYA1-8B?» Потому что 8B требует вдвое больше памяти и работает медленнее на CPU. А если учесть современные тренды, когда гонка за качеством закончилась, и теперь считают секунды и доллары — маленькая, но шустрая модель может быть выгоднее большой.

Правда в том, что 3B от ByteDance — это своего рода замена большой модели в тех сценариях, где раньше приходилось мириться с тугими ответами. Берите, тестируйте, делитесь результатами.

Подписаться на канал

ByteDance выпустила 3B open-source модель: обзор возможностей и тесты производительности