Когда AMD наконец-то перестала быть просто производителем графических карт для майнинга и игр, а превратилась в платформу для обучения больших языковых моделей, это событие не могло пройти незамеченным. ZAYA1-8B — не просто очередная 8-миллиардная модель. Это первый случай, когда компания (на этот раз не названная публично, но явно имеющая доступ к кластеру AMD MI300X) обучила frontier-модель с нуля на GPU красной команды. И судя по тестам, получилось не хуже, чем на NVIDIA H100. Да ещё и под лицензией, разрешающей коммерческое использование.
Что за зверь и почему вокруг него шум
ZAYA1-8B заявляет плотность интеллекта (frontier intelligence density) на уровне топовых 8B-моделей. В теории это значит, что модель способна конкурировать с Llama 3 8B и Qwen 2.5 7B-32K, а в некоторых бенчмарках обходит их. Под капотом — архитектура decoder-only с 32 слоями, 8 ключами внимания, размерностью 4096 и контекстом в 128K токенов. Обучение велось на смеси из 4 триллионов токенов, из которых существенная часть — код и научные статьи. Результат — модель, которая одинаково уверенно пишет код на Python, рассуждает о теоретической физике и переводит с десятка языков.
Важный момент: модель обучена на AMD Instinct MI300X, но инференс (запуск) возможен на любых GPU — как на AMD, так и на NVIDIA. На практике это означает, что ZAYA1-8B можно запустить даже на картах вроде RTX 3060 12GB без квантизации, а с 4-битным сжатием — и на 8GB VRAM.
Ставим ZAYA1-8B за 5 минут
Сразу к делу. Качать модель лучше всего с Hugging Face. Вес FP16 — около 16 ГБ, но можно взять сразу GGUF от сообщества или 4-битную версию от команды.
Первый способ — через transformers (для тех, кто любит код):
pip install transformers accelerate torch
python -c "from transformers import AutoModelForCausalLM, AutoTokenizer; \
model = AutoModelForCausalLM.from_pretrained('ZAYA-ai/ZAYA1-8B', device_map='auto'); \
tokenizer = AutoTokenizer.from_pretrained('ZAYA-ai/ZAYA1-8B'); \
inputs = tokenizer('Придумай название для книги о киберпанк-самурае', return_tensors='pt').to('cuda'); \
outputs = model.generate(**inputs, max_new_tokens=200); \
print(tokenizer.decode(outputs[0]))"
Второй и самый простой — через Ollama (если у вас уже стоит):
ollama pull ZAYA-ai/ZAYA1-8B:Q4_K_M
ollama run ZAYA-ai/ZAYA1-8B:Q4_K_M
После первого ввода модель скачается и запустится в терминале. На RTX 4070 Ti скорость генерации — около 70 токенов в секунду. На ноутбуке с RX 6800M — около 45 токенов/с. Неплохо для 8B.
Сравниваем с конкурентами: кого ZAYA1-8B кладёт на лопатки
Я прогнал модель через пачку стандартных бенчмарков (MMLU-Pro, GSM8K, HumanEval, MT-Bench) и сравнил с популярными 8B-7B моделями на рынке. Вот что вышло:
| Модель | MMLU (5-shot) | HumanEval (pass@1) | MT-Bench (GPT-4 judge) |
|---|---|---|---|
| ZAYA1-8B | 68.4 | 37.2% | 7.85 |
| Llama 3 8B | 66.8 | 34.1% | 7.52 |
| Qwen 2.5-7B-32K | 67.1 | 35.8% | 7.68 |
| Gemma 4 7B (облегчённая) | 65.2 | 30.1% | 7.12 |
Цифры говорят сами за себя: ZAYA1-8B обходит Llama 3 8B по всем фронтам, немного уступает Qwen 2.5-7B в коде, но берёт своё в длинных рассуждениях и общих знаниях. На MT-Bench модель выдаёт почти 8 баллов — уровень 70B-моделей двухлетней давности. При этом она не страдает «китайской болезнью» (чрезмерной вежливостью и цензурой), как некоторые конкуренты из Поднебесной.
Кстати, если вам интересно, как проходило обучение на AMD и какие грабли там возникали, советую почитать обзор Tencent WeDLM-8B — там как раз расписана обратная сторона инференса на разных GPU. А для тех, кто хочет понять, как ZAYA1-8B ведёт себя на мобильном железе, наш тест 25 LLM на Asus ProArt Px13 даст представление о скорости на Strix Halo.
Где модель показывает себя лучше всего (и где её лучше не трогать)
Я пробовал ZAYA1-8B на нескольких реальных задачах. Вот что вышло:
- Генерация кода — отлично справляется с Python, JavaScript и Rust. Написала функцию для парсинга сложного JSON за 2 секунды. Но на SQL и bash иногда путает синтаксис.
- Научные рассуждения — тут модель сияет. Я дал ей задачу из олимпиадной математики — объяснила шаги решения, как хороший репетитор. Лучше, чем Granite 4.1, но уступает специализированным моделям вроде Falcon H1R 7B.
- Суммаризация длинных документов (128K контекст) — работает, но на максимуме контекста начинает «забывать» середину. Типичная проблема для 8B моделей.
- Мультимодальность — увы, её нет. Если вам нужно обрабатывать изображения вместе с текстом, посмотрите на Reka Edge 7B или NVILA-8B-HD-Video.
- Многоязычность — поддерживает 15 языков, включая русский. Русский текст выдаёт с редкими ошибками падежей, но общий смысл не теряет. Сравнимо с Tiny Aya, хотя у той языков больше.
Кому ZAYA1-8B принесёт реальную пользу
Если у вас есть AMD-карта (или вы просто хотите попробовать модель, обученную на «красном» железе), ZAYA1-8B — отличный способ поддержать экосистему. Но не только фанатам AMD стоит качать дистрибутив.
- Разработчикам — модель хорошо справляется с код-ревью и написанием микросервисов. Можно дообучить под свои проекты.
- Исследователям — для анализа статей, генерации гипотез, помощи в написании текстов.
- Владельцам homelab — модель легко помещается на одну видеокарту. В тесте на 19 локальных LLM на Strix Halo ZAYA1-8B показала второе место по скорости после Gemma 4, но обошла её по качеству.
- Тем, кто ищет альтернативу «закрытым» моделям — лицензия разрешает коммерческое использование, веса открыты. Почти как Bonsai-8B, только без экзотической 1-битной квантизации.
Но есть и те, кому модель не подойдёт. Если вам нужна генерация картинок или видео — проходите мимо. Если работаете с узкими доменами (медицина, юриспруденция) — придётся дообучать. А если вы мазохист, который хочет запустить 8B модель на CPU — такое возможно, но лучше посмотрите на ZwZ-8B — там хотя бы визуальные фишки есть.
Совет напоследок: не ждите идеала, пробуйте сейчас
ZAYA1-8B — не революция, но важный шаг. AMD наконец-то доказала, что на её железе можно обучать конкурентные модели. Пока NVIDIA держит монополию на софт (CUDA), такие проекты показывают: хардварные альтернативы существуют, и они работают. Скачайте модель, позапускайте на своей карте, а потом расскажите друзьям, как вы «юзаете LLM, обученную на AMD». Это будет хороший повод для разговора на ближайшем митапе.