Nemotron vs конкуренты: тест LLM до 120B на Strix Halo 2026 | AiManual
AiManual Logo Ai / Manual.
14 Июн 2026 Новости

Nemotron против конкурентов: сравнительный тест моделей до 120B на Strix Halo

Сравнение Nemotron-4-120B, Llama 3.3 70B, Qwen3 Coder Next 48B и других на Strix Halo 128GB. Скорость, качество, практические выводы.

Реклама
partv1

Когда у тебя под рукой 128 гигабайт единой памяти Strix Halo, хочется запустить что-то по-настоящему большое. Не очередную 7B-игрушку, а монстра, который едва умещается в квантованном виде. И тут на сцену выходит Nemotron-4-120B — новая модель NVIDIA, которая официально потребляет 72 ГБ даже в Q4_K_M. Казалось бы, Strix Halo справится. Но практика, как всегда, вносит коррективы.

Мы собрали пять моделей разного калибра: от проверенного Nemotron-3-nano:30b до жирного Nemotron-4-120B. Конкуренты — Llama 3.3 70B, Qwen3 Coder Next 48B и Kimi Linear 48B. Всех прогнали через Strix Halo с 128 ГБ в идентичных условиях. Результаты — где-то удивительные, где-то предсказуемые, но в целом — чёткий ориентир для тех, кто выбирает локальную LLM в 2026 году.

Тяжеловесы на арене: кого и зачем мы гоняли

Для чистоты эксперимента выбрали модели, которые покрывают разные философии разработки и доступны в GGUF-формате под llama.cpp 0.14.1 (май 2026). Все — в квантовании Q4_K_M, которое даёт приемлемый баланс скорости и потерь.

МодельПараметрыДата релизаРазмер Q4_K_M
Nemotron-3-nano:30b30BФевраль 2026~19 ГБ
Qwen3 Coder Next 48B48BМарт 2026~28 ГБ
Kimi Linear 48B48BЯнварь 2026~27 ГБ
Llama 3.3 70B70BДекабрь 2025~42 ГБ
Nemotron-4-120B120BМай 2026~72 ГБ

Nemotron-4-120B — новейшая модель NVIDIA, построенная на архитектуре с MoE-блоками и улучшенным механизмом внимания. Заявляется, что она обходит Llama 3.1 405B в ряде тестов, занимая в три раза меньше памяти. Звучит фантастически, но проверка на Strix Halo покажет, есть ли подвох.

Методика тестирования: без хитростей

Все замеры проводились 10 июня 2026 на Asus ProArt PX13 (Strix Halo) с 128 ГБ LPDDR5X-7500, ROCm 7.3.1, llama.cpp 0.14.1. GPU-режим (-ngl 999). Для каждой модели прогревали контекст из 2048 токенов, измеряли скорость генерации на 1024 токенах. Бенчмарки — MMLU-Pro (для общих знаний), HumanEval+ (код) и GSM8K (математика).

Важный нюанс: Nemotron-4-120B при полной загрузке занимает ~72 ГБ, но на Strix Halo 128 ГБ это не проблема ровно до тех пор, пока система не начинает активно использовать остальные приложения. Если параллельно открыт браузер с парой десятков вкладок и IDE, память может переполниться, и модель уйдёт в своп — скорость упадёт в разы. Тесты проводились на «чистой» системе.

Скорость vs качество: главный компромисс

Давайте посмотрим на цифры. Они красноречивее любых маркетинговых заявлений.

МодельСкорость (токенов/с)MMLU-Pro (%)HumanEval+ (%)GSM8K (%)
Nemotron-3-nano:30b29.172.378.488.2
Qwen3 Coder Next 48B18.469.883.185.6
Kimi Linear 48B17.273.676.287.0
Llama 3.3 70B8.978.181.591.3
Nemotron-4-120B4.380.282.092.7

Главный вывод: Nemotron-4-120B действительно показывает наивысшее качество — почти 80% на MMLU-Pro и 92.7% на GSM8K. Но платить за это приходится скоростью. Четыре токена в секунду — это уровень медленного чтения. Для интерактивного чата модель подходит с натяжкой, а вот для асинхронной обработки задач — вполне.

Любопытно, что Nemotron-3-nano:30b, который мы подробно разбирали в предыдущем тесте, опережает по скорости в 7 раз, но проигрывает всего 8-9 процентных пунктов по качеству. Для многих сценариев это оправданный компромисс.

Nemotron-4-120B: слон в посудной лавке

Сначала хорошее: модель действительно умная. В тесте на логические цепочки из трёх шагов она почти не ошибалась. Код пишет уверенно, но не так чисто, как Qwen3 Coder Next, который лидирует в HumanEval+ среди 48B. Однако есть и плохое: Strix Halo давится этой моделью. Причины — не столько в вычислительной мощности, сколько в пропускной способности памяти. 120B — это 120 миллиардов параметров, каждый из которых нужно таскать из LPDDR5X в кэш. 120 ГБ/с — это современно, но для такой махины узко.

Засечка: попытка запустить Nemotron-4-120B в режиме «-ngl 40» (половина слоёв на CPU) дала прирост скорости до 5.8 токенов/с, но качество упало на 3-5% в бенчмарках. Если вам критична скорость, лучше взять гибрид, но для сравнения мы оставили чистый GPU-режим.

На практике Nemotron-4-120B на Strix Halo — это инструмент для «тяжёлой артиллерии». Закинуть задачу, пойти пить кофе, через 10 минут получить результат. Для оперативной работы — мимо. Если у вас есть Gorgon Halo с более высокой пропускной способностью — другое дело, но Strix Halo не тянет.

Когда лишние миллиарды не нужны

Самый неожиданный результат теста — Nemotron-3-nano:30b не только быстрее, но и в некоторых задачах (особенно в рассуждениях) не уступает более крупным моделям. Мы это уже видели в тесте 25 моделей, и сейчас подтвердилось. Например, в задаче «If it rains, the ground gets wet. The ground is not wet. What can you conclude?» nano выдал верный ответ (не было дождя) быстрее всех, включая 70B и 120B. Причина — эффективная архитектура, которая не тратит ресурсы на лишние вычисления.

Это же подтверждает опыт с 4B версией: NVIDIA умеет делать компактные модели, не жертвуя умом. Nemotron-3-nano — лучший выбор для тех, кто хочет AI-ассистента на каждый день на Strix Halo, не жертвуя скоростью.

Вердикт: кого брать и зачем

Мы не будем говорить «выбирайте X» — у каждого сценария свои приоритеты. Но вот карта решений, построенная на наших тестах.

  • Nemotron-4-120B — если нужно максимальное качество и вы готовы ждать. Для генерации отчётов, анализа больших текстов, сложных рассуждений. Но не для чата.
  • Llama 3.3 70B — золотая середина. Качество почти как у 120B, но скорость в два раза выше. Для задач средней сложности — лучший баланс.
  • Qwen3 Coder Next 48B — король кода среди «умеренных» моделей. Если ваш основной инструмент — написание программ, берите её.
  • Kimi Linear 48B — отличный универсал с хорошим пониманием длинных контекстов. Выигрывает у Qwen в рассуждениях, но уступает в коде.
  • Nemotron-3-nano:30b — выбор прагматика. Быстро, дёшево (в смысле памяти), и почти так же хорошо, как большие братья. Для 90% ежедневных задач — идеал.
💡
Перед установкой любой модели обязательно проверьте наш гайд по квантованиям — неправильный выбор бэкенда может срезать скорость вдвое. На Strix Halo Vulkan иногда быстрее ROCm, а для гибридного режима — свои хитрости.

Что касается будущего — уже ходят слухи о Nemotron-5 с архитектурой State Space и поддержкой контекста в 1 млн токенов. Если такая модель выйдет, ей понадобится не только 128 ГБ, но и гораздо более широкая память. Strix Halo может стать для неё «узким бутылочным горлышком». Но пока — имеем то, что имеем: Nemotron-4-120B на Strix Halo работает, но не спеша. А Nemotron-3-nano тихо выигрывает гонку.

Подписаться на канал