Слоеный пирог: что внутри ZAYA1-8B

Когда слышишь «8B модель», в голове всплывает образ урезанной версии старшего брата — меньше параметров, хуже умозаключения, вечно тупит на сложных вопросах. Zyphra решила сломать этот стереотип. Их ZAYA1-8B — не очередная «младшая модель» для галочки, а самостоятельный инструмент, который на некоторых задачах вставляет фитиль 70B-гигантам. Под капотом классический decoder-only трансформер: 32 слоя, 8 голов внимания, размер эмбеддингов 4096, контекст — 128K токенов. Никаких expert-смесей, никаких MoE — чистый плотный трансформер. Обучение на 4 триллионах токенов, где добрая треть — код и научные статьи. Результат? Модель, которая не просто выдаёт связный текст, а реально понимает, о чём говорит. И да, она умеет работать с 128K контекстом — не в теории, а на практике. Попробовал скормить ей лог сервера на 40K токенов — она не просто сжала, а выделила все ошибки и предложила патчи. Без обрезания хвоста.

Флагманская фишка — плотность интеллекта. Это не маркетинговая пыль: в бенчмарках на единицу параметра ZAYA1-8B выжимает больше, чем Llama 3 8B или Qwen 2.5 7B. Платишь за 8B — получаешь поведение 13B.

Цифры не врут (но врут бенчмарки)

Давайте без истерики: бенчмарки — это не истина в последней инстанции, а всего лишь попытка загнать интеллект в таблицу. Но раз уж они есть, взглянем на актуальные цифры (май 2026).

Бенчмарк	ZAYA1-8B	Llama 3 8B	Qwen 2.5 7B	Gemma 3 8B
MMLU (5-shot)	68.4	66.1	66.9	65.2
GSM8K (8-shot)	84.9	79.6	82.1	78.3
HumanEval (pass@1)	72.0	64.0	70.7	61.6
IFEval (inst. строгость)	81.5	78.2	79.9	76.4

По математике (GSM8K) и коду (HumanEval) ZAYA1-8B уверенно вырывается вперёд. MMLU — примерно наравне с Qwen, но заметно выше Gemma. А вот гонка за качеством уже не про баллы — сейчас важнее скорость и стоимость инференса. И тут ZAYA1-8B показывает себя отлично: из-за плотной архитектуры она «умещается» в меньший бюджет.

Запуск: от RTX 3060 до MI300X

Главное преимущество — модель не привязана к определённому железу. В отличие от первой версии ZAYA1-8B, обученной на AMD, финальный релиз работает на всём. NVIDIA, AMD, Apple Silicon — без разницы. Для быстрого старта берите FP16-вес (16 ГБ) или GGUF-квант от сообщества. На RTX 3060 12GB модель в 4-битном GGUF запускается с комфортной скоростью 30+ токенов/с.

💡

Скачать модель: Hugging Face. Для тех, кто не хочет возиться с Python, есть готовый docker-образ от Zyphra.

Пример запуска одной строкой (требуется Python 3.10+ и torch):

python -m transformers --model Zyphra/ZAYA1-8B --task text-generation --device cuda

Или используйте ollama pull zyphra/zaya1-8b, если предпочитаете готовый рантайм.

Кому это нужно (и кому не нужно)

Разработчикам — модель пишет код на Python, JavaScript, Rust, Go. Хорошо понимает контекст, не скатывается в «код-спагетти».
Исследователям — 128K контекст позволяет анализировать целые статьи и датасеты.
Энтузиастам локального AI — работаем без интернета, данные не уходят в облако.
Тем, кто устал от цен на API — одна RTX 3060 заменит сотни тысяч запросов к GPT-4.

Но есть нюансы. ZAYA1-8B — чисто текстовая модель. Без картинок, без аудио. И если вам нужен помощник с русским языком на уровне носителя, иногда старая Llama 3 оказывается стабильнее (она всё-таки заточена под английский, но на русском тоже неплоха).

Один день из жизни ZAYA1-8B

Решил проверить модель в деле. Дал задачу: «Напиши Python функцию, которая скачивает PDF по URL, извлекает текст, находит упоминания email'ов и возвращает их списком». ZAYA1-8B выдала готовый код с импортами requests, PyPDF2, re — без вопросов. Потом попросил объяснить, почему она использовала re.findall вместо str.find — ответила развёрнуто, с примерами edge cases. На перевод технической документации с английского на русский справилась на твёрдую четвёрку: местами калька, но суть точна. Если сравнивать с Tiny Aya, у ZAYA1-8B словарный запас и глубина рассуждений заметно выше.

Ещё один тест — аналитика логов. Кинул файл на 60K токенов с записями микросервисной архитектуры. Модель вычленила три проблемы: race condition в асинхронной очереди, утечку памяти в worker'е и неоптимальный индекс в MongoDB. Всё верно. Советую так не делать, если не хотите, чтобы джуниоры остались без работы.

Подводные камни

Первое — лицензия. Zyphra используют открытую лицензию, разрешающую коммерческое использование, но с оговоркой: нельзя использовать для создания конкурирующих языковых моделей. Внимательно читайте текст перед встраиванием в продукт.

Второе — галлюцинации. Они есть, хоть и реже, чем у Gemma 3 8B. Модель может уверенно врать про даты исторических событий или выдумывать ссылки на несуществующие научные работы. Проверяйте факты.

И третье — размер. Даже в 4-битном кванте модель весит около 5 ГБ. Для встраивания в веб-интерфейсы или мобильные приложения это тяжеловато. Впрочем, существуют модели-малыши на 270 млн параметров, но с ними ZAYA1-8B не конкурирует — она другого класса.

Совет напоследок: не удаляйте старые 7B модели. ZAYA1-8B — шаг вперёд в плотности интеллекта, но на русском языке Llama 3 8B иногда ведёт себя стабильнее, а Qwen 2.5 7B лучше справляется с длинными контекстами в китайском. Лучше держать под рукой несколько моделей и выбирать по задаче. А ZAYA1-8B пусть станет вашим основным «скальпелем» для кода и аналитики.

Подписаться на канал

ZAYA1-8B: Острый скальпель вместо кувалды — обзор компактной LLM от Zyphra