Зачем гонять модели на APU с 128 ГБ памяти?
Потому что это единственная платформа, где можно запустить 70B-модель в полном 16-битном формате без танцев с бубном и дорогущих H100. Strix Halo — не просто APU, это полноценный стенд для тестирования пределов локального AI. 128 ГБ унифицированной памяти меняют правила игры, и я решил проверить, на что способны самые свежие модели 2025-2026 годов.
Все тесты проводились на Strix Halo с ROCm 7.2.1 (релиз от декабря 2025), llama.cpp компилировался с поддержкой HIP для AMD. Система — Ubuntu 24.04 LTS с ядром 6.11. Никаких виртуалок, только голое железо.
Испытуемые: кто попал на скамью подсудимых
Я отобрал модели, о которых все говорят, но мало кто видел их в работе на AMD-железе:
- MiniMax M2.5 — наследник M2.1, вышел в январе 2026. Заявлено улучшение кодинга на 15% и поддержка контекста 128K.
- Step 3.5 Flash — «быстрая» версия StepFun, оптимизированная для инференса. На бумаге должна летать.
- Qwen3 Coder Next 72B — монстр для программирования, который в прошлых тестах уже показывал характер.
- Kimi Linear 48B — для сравнения с предыдущим поколением.
- MiniMax M2.1 32B — контрольная точка, чтобы понять, действительно ли M2.5 лучше.
Методология: как мы мучали железо
Никаких синтетических бенчмарков типа MLPerf. Только реальные сценарии:
- Генерация кода — 10 задач с HumanEval, температура 0.2, контекст 4096 токенов.
- Длинные ответы — генерация документации на 2000 токенов, проверка стабильности памяти.
- Скорость инференса — токенов в секунду на промпте средней сложности.
- Потребление памяти — сколько реально жрет каждая модель в разных квантованиях.
Все тесты запускались через llama.cpp с флагами -ngl 99 (все слои на GPU) и -c 4096. ROCm 7.2.1 против прошлых версий получил заметные оптимизации для Strix Halo.
Результаты: цифры, которые говорят громче слов
| Модель (Квант) | Размер (GB) | Токен/с (gen) | HumanEval (%) | Память (GB) |
|---|---|---|---|---|
| MiniMax M2.5 72B (Q4_K_M) | 41.2 | 18.7 | 84.5 | 48.3 |
| MiniMax M2.5 72B (REAP-Q3) | 29.8 | 22.1 | 83.1 | 36.4 |
| Step 3.5 Flash 70B (Q4_K_S) | 39.5 | 16.3 | 79.2 | 46.1 |
| Qwen3 Coder Next 72B (Q4_0) | 40.1 | 15.8 | 86.7 | 47.5 |
| Kimi Linear 48B (Q5_K_M) | 31.2 | 24.5 | 81.3 | 38.9 |
Первое, что бросается в глаза — REAP-квантование для M2.5 работает. 29.8 GB против 41.2 — это серьезная экономия места, а падение качества всего на 1.4%. Скорость при этом вырастает на 18%. Подробнее о REAP можно почитать в отдельном материале.
Step 3.5 Flash: где же обещанная скорость?
Производитель позиционирует ее как «оптимизированную для инференса», но на Strix Halo она оказалась медленнее всех. 16.3 токен/с против 22.1 у M2.5 в REAP. При этом качество кодинга тоже не впечатляет — 79.2% против 84.5%.
Вероятно, оптимизации Step 3.5 Flash заточены под CUDA и TensorRT-LLM. На ROCm она работает через совместимость, и это сказывается. Типичная история для «быстрых» моделей, которые думают медленнее в определенных условиях.
Qwen3 Coder Next: король качества, но не скорости
86.7% на HumanEval — это лучший результат среди всех тестируемых. Но плата за качество — скорость. 15.8 токен/с, почти на 30% медленнее M2.5 в REAP. Если нужен максимально точный код и время не критично — это ваш выбор.
Интересный момент: Qwen3 Coder Next использует архитектурные улучшения, которые особенно хорошо раскрываются на длинных контекстах. При генерации документации на 2000 токенов качество не падает, в отличие от некоторых других моделей.
Память: 128 ГБ хватает с запасом
Даже самая прожорливая модель (M2.5 в Q4_K_M) занимает 48.3 GB в работе. Это меньше половины доступной памяти. Можно спокойно запускать две модели одновременно или использовать спекулятивный декодинг без риска упереться в лимит.
REAP-квантование M2.5 снижает потребление до 36.4 GB — появляется пространство для маневра. Можно поднять batch size или закешировать больше контекста.
Практические выводы: какую модель качать сегодня
1. Для ежедневного кодинга с балансом скорости и качества — MiniMax M2.5 в REAP-Q3. Экономия места +18% скорости за 1.4% качества.
2. Для критичных задач, где важен каждый процент точности — Qwen3 Coder Next в Q4_0. Медленно, но результат ближе к идеалу.
3. Если ограниченное дисковое пространство — Kimi Linear 48B в Q5_K_M. Всего 31.2 GB при достойном качестве.
4. Step 3.5 Flash пока стоит пропустить, если у вас AMD-железо. Ждем оптимизаций под ROCm.
Чего ждать дальше?
Производители начинают учитывать не только NVIDIA. В дорожных картах на 2026 год уже есть упоминания об оптимизациях под ROCm и даже Vulkan. Strix Halo с его 128 ГБ становится референсной платформой для тестирования больших моделей.
Следующий рубеж — запуск моделей с 1 триллионом параметров в смешанном режиме. 128 ГБ памяти позволяют загрузить достаточно большие чанки, а остальное подкачивать с NVMe. Эксперименты с такой конфигурацией уже ведутся.
Мой совет — не гонитесь за самой новой моделью. Скачайте M2.5 в REAP-Q3 и Qwen3 Coder Next. Первая для скорости, вторая для качества. Этого хватит на 95% задач. А когда выйдут оптимизированные версии Step 3.5 Flash под ROCm — протестируете заново.