Сравнение 19 локальных LLM на AMD Strix Halo: тесты Gemma 4, Qwen 3.5 | AiManual
AiManual Logo Ai / Manual.
04 Апр 2026 Гайд

19 локальных LLM на Strix Halo: Gemma 4 против Qwen 3.5 и других — полный тест для homelab

Полный бенчмарк 19 локальных LLM на APU AMD Strix Halo (04.2026). Сравнение производительности, качества и энергопотребления Gemma 4, Qwen 3.5 и других моделей

Когда 19 моделей LLM дерутся на одной APU: что выживает?

Купить AMD Strix Halo для запуска локальных LLM - это как собрать всех своих бывших на одну кухню. Интриги, драма, неожиданные лидеры и полное фиаско тех, на кого ставил. После тестов настроенного Strix Halo с NPU остался один вопрос: а какая модель здесь будет царствовать? Не абстрактные "лучшие на бумаге", а те, что реально работают на этой конкретной APU в вашем homelab.

Я загрузил 19 самых свежих на апрель 2026 года моделей. От крохотных 3-миллиардников до 72-миллиардных монстров. Все - в актуальных версиях, с последними патчами и оптимизациями. Цель простая: найти баланс между скоростью, качеством ответов и тем, чтобы система не потребляла как две RTX 4090.

Важно: все тесты проведены на инженерном образце Strix Halo с ранними драйверами XDNA 3.5. Розничные версии могут показывать до +15% к производительности. Дата тестирования - 02-03 апреля 2026 года.

1 Стенд, где все ломается: железо и софт

Конфигурация тестового стенда - это то, что у вас, скорее всего, и будет:

  • AMD Strix Halo (инженерный образец) - 16 ядер Zen 5, NPU XDNA 3.5 100 TOPS
  • 64 ГБ LPDDR5X-8533 в конфигурации 256-бит (встроенная память APU)
  • Системный диск: 2 ТБ NVMe PCIe 5.0
  • ОС: Ubuntu 24.10 с ядром Linux 6.15 и патчами для XDNA 3.5
  • Софт: FastFlowLM 0.9.1 (первая стабильная с полной поддержкой Strix Halo)

Почему FastFlowLM, а не ollama или llama.cpp? Потому что только эта платформа на апрель 2026 года умеет загружать вычисления матричных умножений на NPU, оставляя CPU для управления потоком. Разница в энергопотреблении - до 4 раз. Да, llama.cpp с флагом -ngl 0 тоже работает на CPU, но это как ехать на Ferrari со снятым двигателем - можно, но зачем?

# Команда запуска теста для Gemma 4 8B
fastflowlm serve --model google/gemma-4-8b-it-q4_k_m \
--npu \
--max-tokens 512 \
--temperature 0.7
💡
Ключевой параметр --npu заставляет FastFlowLM использовать нейропроцессор. Без него все вычисления идут на CPU, и потребление энергии вырастает с 25-30 Вт до 65-70 Вт. Скорость при этом меняется незначительно - NPU здесь не для ускорения, а для энергоэффективности.

2 Как мы мерили: метрики, которые имеют значение

TOPS (триллионы операций в секунду) - это для маркетологов. В homelab важны три вещи:

  1. Токенов в секунду - как быстро модель генерирует ответ. Замерялось на промпте "Напиши подробную инструкцию по настройке WireGuard сервера" (примерно 150 токенов).
  2. Качество ответов - субъективная оценка от 1 до 5 по трем критериям: полезность, точность, отсутствие галлюцинаций.
  3. Пиковое энергопотребление - сколько ватт съедает APU в момент генерации. Замерялось через RAPL интерфейс.
  4. Потребление памяти - сколько гигабайт LPDDR5X занимает модель после загрузки.

Каждая модель тестировалась в трех сценариях: генерация кода (Python), ответ на вопрос по истории, творческая задача (написать короткий рассказ).

Цифры, которые заставят пересмотреть выбор модели

Вот полная таблица результатов. Цвета - не для красоты. Зеленое - берите не глядя. Красное - бегите.

Модель (версия на 04.2026) Параметры Токен/с Качество (1-5) Энергия, Вт Память, ГБ
Gemma 4 8B Instruct 8B 42.3 4.8 24 5.2
Qwen 3.5 14B Chat 14B 31.7 4.7 27 8.1
Llama 4 12B Instruct 12B 35.2 4.5 26 6.9
DeepSeek Coder 7B 7B 48.1 4.9 (для кода) 22 4.5
Mistral Small 3.1 12B 33.8 4.3 25 6.7
Phi 4 14B 14B 29.4 4.0 28 8.3
Qwen 3.5 32B Chat 32B 14.7 4.9 41 18.2
Llama 4 70B Instruct 70B 3.2 4.9 63 38.7

Полная таблица со всеми 19 моделями заняла бы три экрана. Выводы из этих цифр неочевидны. Например, Gemma 4 8B почти догоняет по качеству ответов 32-миллиардные модели, но работает в 3 раза быстрее и съедает вдвое меньше памяти. Это не ошибка замеров - это результат архитектурных улучшений, о которых не кричит маркетинг.

Сюрпризы и разочарования: что не попало в таблицу

Gemma 4 8B - это новый стандарт для homelab. 42 токена в секунду при качестве ответов почти как у GPT-4 образца 2024 года. Она не просто быстрая - она стабильно выдает хорошие результаты по всем трем тестам. Код пишет чисто, исторические факты не путает, в творческих задачах проявляет неожиданную изобретательность. Если бы мне пришлось оставить одну модель на Strix Halo - это была бы она.

Qwen 3.5 14B - китайский ответ Gemma. Чуть медленнее, чуть больше жрет энергии, но зато бесплатно и без ограничений. Идеально подходит для задач на русском и китайском языках - тут у Qwen явное преимущество.

Ловушка больших моделей: запуск Llama 4 70B на Strix Halo возможен, но бессмыслен. 3.2 токена в секунду - это 20 секунд ожидания на каждый абзац ответа. При этом качество ненамного выше, чем у Gemma 4 8B. 70-миллиардники оставьте для серверов с несколькими GPU.

DeepSeek Coder 7B - специализированный инструмент, который бьет всех по генерации кода. 48 токенов в секунду - это почти реальное время. Вы пишете "напиши функцию на Python для парсинга JSON", а она уже выдает готовый код с комментариями. Но спрашивать у нее про историю Римской империи - бесполезно.

3 Энергетический вампиризм: почему ватты важнее токенов

Strix Halo при полной нагрузке на CPU и NPU потребляет около 65 Вт. Большинство моделей из теста укладываются в 25-30 Вт. Казалось бы, разница невелика. Но теперь посчитайте:

  • 30 Вт × 24 часа × 30 дней = 21.6 кВт·ч в месяц
  • 65 Вт × 24 часа × 30 дней = 46.8 кВт·ч в месяц

При средней цене 5 рублей за кВт·ч это 108 рублей против 234 рублей. В год - 1296 против 2808 рублей. И это только одна APU, которая работает круглосуточно как LLM-сервер.

Теперь самое интересное: Llama 4 70B жрет свои 63 Вт постоянно, даже когда простаивает. Потому что 38 ГБ модели должны быть загружены в память. А Gemma 4 8B в простое отдает NPU и снижает потребление до 8-10 Вт. Разница в 6 раз!

Как выбрать модель: неочевидные критерии

Забудьте про "самая умная модель". В homelab другие правила:

  1. Что у вас за задачи? Для чата и общих вопросов - Gemma 4 8B или Qwen 3.5 14B. Для генерации кода - DeepSeek Coder 7B. Для исследований - возьмите две модели поменьше и сравнивайте их ответы.
  2. Насколько важна скорость? 20 токенов в секунду - это комфортно для чтения. Меньше 10 - вы будете постоянно ждать. Больше 30 - вы не успеваете читать.
  3. Сколько у вас памяти? 64 ГБ на Strix Halo - это не 64 ГБ на обычной системе. Часть памяти забирает графическое ядро, часть - системные процессы. Модель на 20 ГБ оставит вам мало места для других задач.

Мой выбор для разных сценариев:

  • Единственная модель на все случаи: Gemma 4 8B Instruct
  • Связка для качества: Qwen 3.5 14B + DeepSeek Coder 7B (переключать в зависимости от задачи)
  • Для экспериментов: Phi 4 14B + Mistral Small 3.1 (интересно сравнивать архитектуры)
  • Что не стоит ставить: любые модели больше 32B параметров - они превращают Strix Halo в медленный обогреватель

Предупреждение: не используйте квантование ниже Q4_K_M для Gemma 4. Модель теряет в качестве заметнее, чем другие. Qwen 3.5 более устойчив к агрессивному квантованию - можно использовать Q3_K_S без значительной потери.

Ошибки, которые совершают все (и я тоже)

За неделю тестов я наступил на все грабли. Вот топ-5, которые сэкономят вам время:

  1. Не проверять совместимость формата. FastFlowLM 0.9.1 работает с GGUF, но не со всеми версиями. Скачали модель - сразу запустите тестовый промпт.
  2. Забывать про тепловой пакет. Strix Halo в компактном корпусе без вентиляции упирается в троттлинг через 15 минут генерации. Температура ядра NPU - ваш главный враг.
  3. Держать несколько моделей в памяти. FastFlowLM не умеет выгружать модели полностью. Хотите переключиться - перезапустите процесс.
  4. Использовать стандартные промпты. Системные промпты для ChatGPT не работают с локальными моделями. Пишите простые, конкретные инструкции.
  5. Не мониторить потребление памяти. Запустили модель - проверьте free -h. Если swap начинает использоваться, производительность падает в 10-20 раз.
# Мониторинг температуры NPU (только на инженерных образцах)
sensors | grep npu
# npu_temp: +56.0°C  (high = +95.0°C, crit = +105.0°C)

Что будет дальше: прогноз на 2026-2027

К концу 2026 года мы увидим модели 10-12B параметров, которые по качеству будут на уровне сегодняшних 70B. Архитектурные оптимизации съедают накладные расходы быстрее, чем растут параметры.

NPU следующего поколения в AMD Strix Point (преемник Halo) получит в 2-3 раза больше специализированных блоков для матричных умножений. Это значит, что сегодняшние 42 токена в секунду превратятся в 80-100.

Самое важное: стоимость запуска локальных LLM упадет ниже психологической отметки "дешевле, чем лампочка". Модель среднего качества будет потреблять 5-7 Вт - как USB-вентилятор.

Мой совет на апрель 2026: не гонитесь за гигантами. Возьмите Gemma 4 8B, настройте оптимальное квантование и забудьте про облачные API для 80% задач. Оставшиеся 20%, где нужна сверхточность, отдавайте GPT-5 через API (да, он уже вышел и стоит $0.08/1K выходных токенов).

А через год, когда появится Strix Point, продадите этот Halo на Avito за полцены и повторите тест с новыми моделями. Круг homelab-жизни замкнется.

Подписаться на канал