Зачем гонять модели на APU с 128 ГБ памяти?

Потому что это единственная платформа, где можно запустить 70B-модель в полном 16-битном формате без танцев с бубном и дорогущих H100. Strix Halo — не просто APU, это полноценный стенд для тестирования пределов локального AI. 128 ГБ унифицированной памяти меняют правила игры, и я решил проверить, на что способны самые свежие модели 2025-2026 годов.

Все тесты проводились на Strix Halo с ROCm 7.2.1 (релиз от декабря 2025), llama.cpp компилировался с поддержкой HIP для AMD. Система — Ubuntu 24.04 LTS с ядром 6.11. Никаких виртуалок, только голое железо.

Испытуемые: кто попал на скамью подсудимых

Я отобрал модели, о которых все говорят, но мало кто видел их в работе на AMD-железе:

MiniMax M2.5 — наследник M2.1, вышел в январе 2026. Заявлено улучшение кодинга на 15% и поддержка контекста 128K.
Step 3.5 Flash — «быстрая» версия StepFun, оптимизированная для инференса. На бумаге должна летать.
Qwen3 Coder Next 72B — монстр для программирования, который в прошлых тестах уже показывал характер.
Kimi Linear 48B — для сравнения с предыдущим поколением.
MiniMax M2.1 32B — контрольная точка, чтобы понять, действительно ли M2.5 лучше.

💡

Особый интерес — новые REAP-квантования для M2.5. Производитель обещает сжатие 19-50% без потерь качества. Проверим это на практике.

Методология: как мы мучали железо

Никаких синтетических бенчмарков типа MLPerf. Только реальные сценарии:

Генерация кода — 10 задач с HumanEval, температура 0.2, контекст 4096 токенов.
Длинные ответы — генерация документации на 2000 токенов, проверка стабильности памяти.
Скорость инференса — токенов в секунду на промпте средней сложности.
Потребление памяти — сколько реально жрет каждая модель в разных квантованиях.

Все тесты запускались через llama.cpp с флагами -ngl 99 (все слои на GPU) и -c 4096. ROCm 7.2.1 против прошлых версий получил заметные оптимизации для Strix Halo.

Результаты: цифры, которые говорят громче слов

Модель (Квант)	Размер (GB)	Токен/с (gen)	HumanEval (%)	Память (GB)
MiniMax M2.5 72B (Q4_K_M)	41.2	18.7	84.5	48.3
MiniMax M2.5 72B (REAP-Q3)	29.8	22.1	83.1	36.4
Step 3.5 Flash 70B (Q4_K_S)	39.5	16.3	79.2	46.1
Qwen3 Coder Next 72B (Q4_0)	40.1	15.8	86.7	47.5
Kimi Linear 48B (Q5_K_M)	31.2	24.5	81.3	38.9

Первое, что бросается в глаза — REAP-квантование для M2.5 работает. 29.8 GB против 41.2 — это серьезная экономия места, а падение качества всего на 1.4%. Скорость при этом вырастает на 18%. Подробнее о REAP можно почитать в отдельном материале.

Step 3.5 Flash: где же обещанная скорость?

Производитель позиционирует ее как «оптимизированную для инференса», но на Strix Halo она оказалась медленнее всех. 16.3 токен/с против 22.1 у M2.5 в REAP. При этом качество кодинга тоже не впечатляет — 79.2% против 84.5%.

Вероятно, оптимизации Step 3.5 Flash заточены под CUDA и TensorRT-LLM. На ROCm она работает через совместимость, и это сказывается. Типичная история для «быстрых» моделей, которые думают медленнее в определенных условиях.

Qwen3 Coder Next: король качества, но не скорости

86.7% на HumanEval — это лучший результат среди всех тестируемых. Но плата за качество — скорость. 15.8 токен/с, почти на 30% медленнее M2.5 в REAP. Если нужен максимально точный код и время не критично — это ваш выбор.

Интересный момент: Qwen3 Coder Next использует архитектурные улучшения, которые особенно хорошо раскрываются на длинных контекстах. При генерации документации на 2000 токенов качество не падает, в отличие от некоторых других моделей.

Память: 128 ГБ хватает с запасом

Даже самая прожорливая модель (M2.5 в Q4_K_M) занимает 48.3 GB в работе. Это меньше половины доступной памяти. Можно спокойно запускать две модели одновременно или использовать спекулятивный декодинг без риска упереться в лимит.

REAP-квантование M2.5 снижает потребление до 36.4 GB — появляется пространство для маневра. Можно поднять batch size или закешировать больше контекста.

Практические выводы: какую модель качать сегодня

1. Для ежедневного кодинга с балансом скорости и качества — MiniMax M2.5 в REAP-Q3. Экономия места +18% скорости за 1.4% качества.

2. Для критичных задач, где важен каждый процент точности — Qwen3 Coder Next в Q4_0. Медленно, но результат ближе к идеалу.

3. Если ограниченное дисковое пространство — Kimi Linear 48B в Q5_K_M. Всего 31.2 GB при достойном качестве.

4. Step 3.5 Flash пока стоит пропустить, если у вас AMD-железо. Ждем оптимизаций под ROCm.

💡

Важный нюанс: все модели тестировались с ROCm 7.2.1. Если у вас более старая версия, цифры могут отличаться. Обновляйтесь — в каждом релизе добавляют оптимизации для Strix Halo.

Чего ждать дальше?

Производители начинают учитывать не только NVIDIA. В дорожных картах на 2026 год уже есть упоминания об оптимизациях под ROCm и даже Vulkan. Strix Halo с его 128 ГБ становится референсной платформой для тестирования больших моделей.

Следующий рубеж — запуск моделей с 1 триллионом параметров в смешанном режиме. 128 ГБ памяти позволяют загрузить достаточно большие чанки, а остальное подкачивать с NVMe. Эксперименты с такой конфигурацией уже ведутся.

Мой совет — не гонитесь за самой новой моделью. Скачайте M2.5 в REAP-Q3 и Qwen3 Coder Next. Первая для скорости, вторая для качества. Этого хватит на 95% задач. А когда выйдут оптимизированные версии Step 3.5 Flash под ROCm — протестируете заново.

Strix Halo под прицелом: M2.5, Step 3.5 Flash и Qwen3 Coder Next в огне реальных тестов