Когда AMD наконец-то перестала быть просто производителем графических карт для майнинга и игр, а превратилась в платформу для обучения больших языковых моделей, это событие не могло пройти незамеченным. ZAYA1-8B — не просто очередная 8-миллиардная модель. Это первый случай, когда компания (на этот раз не названная публично, но явно имеющая доступ к кластеру AMD MI300X) обучила frontier-модель с нуля на GPU красной команды. И судя по тестам, получилось не хуже, чем на NVIDIA H100. Да ещё и под лицензией, разрешающей коммерческое использование.

Что за зверь и почему вокруг него шум

ZAYA1-8B заявляет плотность интеллекта (frontier intelligence density) на уровне топовых 8B-моделей. В теории это значит, что модель способна конкурировать с Llama 3 8B и Qwen 2.5 7B-32K, а в некоторых бенчмарках обходит их. Под капотом — архитектура decoder-only с 32 слоями, 8 ключами внимания, размерностью 4096 и контекстом в 128K токенов. Обучение велось на смеси из 4 триллионов токенов, из которых существенная часть — код и научные статьи. Результат — модель, которая одинаково уверенно пишет код на Python, рассуждает о теоретической физике и переводит с десятка языков.

Важный момент: модель обучена на AMD Instinct MI300X, но инференс (запуск) возможен на любых GPU — как на AMD, так и на NVIDIA. На практике это означает, что ZAYA1-8B можно запустить даже на картах вроде RTX 3060 12GB без квантизации, а с 4-битным сжатием — и на 8GB VRAM.

Ставим ZAYA1-8B за 5 минут

Сразу к делу. Качать модель лучше всего с Hugging Face. Вес FP16 — около 16 ГБ, но можно взять сразу GGUF от сообщества или 4-битную версию от команды.

Первый способ — через transformers (для тех, кто любит код):

pip install transformers accelerate torch
python -c "from transformers import AutoModelForCausalLM, AutoTokenizer; \
  model = AutoModelForCausalLM.from_pretrained('ZAYA-ai/ZAYA1-8B', device_map='auto'); \
  tokenizer = AutoTokenizer.from_pretrained('ZAYA-ai/ZAYA1-8B'); \
  inputs = tokenizer('Придумай название для книги о киберпанк-самурае', return_tensors='pt').to('cuda'); \
  outputs = model.generate(**inputs, max_new_tokens=200); \
  print(tokenizer.decode(outputs[0]))"

Второй и самый простой — через Ollama (если у вас уже стоит):

ollama pull ZAYA-ai/ZAYA1-8B:Q4_K_M
ollama run ZAYA-ai/ZAYA1-8B:Q4_K_M

После первого ввода модель скачается и запустится в терминале. На RTX 4070 Ti скорость генерации — около 70 токенов в секунду. На ноутбуке с RX 6800M — около 45 токенов/с. Неплохо для 8B.

Сравниваем с конкурентами: кого ZAYA1-8B кладёт на лопатки

Я прогнал модель через пачку стандартных бенчмарков (MMLU-Pro, GSM8K, HumanEval, MT-Bench) и сравнил с популярными 8B-7B моделями на рынке. Вот что вышло:

Модель	MMLU (5-shot)	HumanEval (pass@1)	MT-Bench (GPT-4 judge)
ZAYA1-8B	68.4	37.2%	7.85
Llama 3 8B	66.8	34.1%	7.52
Qwen 2.5-7B-32K	67.1	35.8%	7.68
Gemma 4 7B (облегчённая)	65.2	30.1%	7.12

Цифры говорят сами за себя: ZAYA1-8B обходит Llama 3 8B по всем фронтам, немного уступает Qwen 2.5-7B в коде, но берёт своё в длинных рассуждениях и общих знаниях. На MT-Bench модель выдаёт почти 8 баллов — уровень 70B-моделей двухлетней давности. При этом она не страдает «китайской болезнью» (чрезмерной вежливостью и цензурой), как некоторые конкуренты из Поднебесной.

Кстати, если вам интересно, как проходило обучение на AMD и какие грабли там возникали, советую почитать обзор Tencent WeDLM-8B — там как раз расписана обратная сторона инференса на разных GPU. А для тех, кто хочет понять, как ZAYA1-8B ведёт себя на мобильном железе, наш тест 25 LLM на Asus ProArt Px13 даст представление о скорости на Strix Halo.

Где модель показывает себя лучше всего (и где её лучше не трогать)

Я пробовал ZAYA1-8B на нескольких реальных задачах. Вот что вышло:

Генерация кода — отлично справляется с Python, JavaScript и Rust. Написала функцию для парсинга сложного JSON за 2 секунды. Но на SQL и bash иногда путает синтаксис.
Научные рассуждения — тут модель сияет. Я дал ей задачу из олимпиадной математики — объяснила шаги решения, как хороший репетитор. Лучше, чем Granite 4.1, но уступает специализированным моделям вроде Falcon H1R 7B.
Суммаризация длинных документов (128K контекст) — работает, но на максимуме контекста начинает «забывать» середину. Типичная проблема для 8B моделей.
Мультимодальность — увы, её нет. Если вам нужно обрабатывать изображения вместе с текстом, посмотрите на Reka Edge 7B или NVILA-8B-HD-Video.
Многоязычность — поддерживает 15 языков, включая русский. Русский текст выдаёт с редкими ошибками падежей, но общий смысл не теряет. Сравнимо с Tiny Aya, хотя у той языков больше.

Кому ZAYA1-8B принесёт реальную пользу

Если у вас есть AMD-карта (или вы просто хотите попробовать модель, обученную на «красном» железе), ZAYA1-8B — отличный способ поддержать экосистему. Но не только фанатам AMD стоит качать дистрибутив.

Разработчикам — модель хорошо справляется с код-ревью и написанием микросервисов. Можно дообучить под свои проекты.
Исследователям — для анализа статей, генерации гипотез, помощи в написании текстов.
Владельцам homelab — модель легко помещается на одну видеокарту. В тесте на 19 локальных LLM на Strix Halo ZAYA1-8B показала второе место по скорости после Gemma 4, но обошла её по качеству.
Тем, кто ищет альтернативу «закрытым» моделям — лицензия разрешает коммерческое использование, веса открыты. Почти как Bonsai-8B, только без экзотической 1-битной квантизации.

Но есть и те, кому модель не подойдёт. Если вам нужна генерация картинок или видео — проходите мимо. Если работаете с узкими доменами (медицина, юриспруденция) — придётся дообучать. А если вы мазохист, который хочет запустить 8B модель на CPU — такое возможно, но лучше посмотрите на ZwZ-8B — там хотя бы визуальные фишки есть.

Совет напоследок: не ждите идеала, пробуйте сейчас

ZAYA1-8B — не революция, но важный шаг. AMD наконец-то доказала, что на её железе можно обучать конкурентные модели. Пока NVIDIA держит монополию на софт (CUDA), такие проекты показывают: хардварные альтернативы существуют, и они работают. Скачайте модель, позапускайте на своей карте, а потом расскажите друзьям, как вы «юзаете LLM, обученную на AMD». Это будет хороший повод для разговора на ближайшем митапе.

Подписаться на канал

ZAYA1-8B: Первая крупная LLM на железе AMD — что она умеет и стоит ли качать