M5 vs DGX Spark vs Strix Halo vs RTX 6000: сравнение для LLM | AiManual
AiManual Logo Ai / Manual.
17 Май 2026 Гайд

M5 vs DGX Spark vs Strix Halo vs RTX 6000: кто выживет в локальном AI-забеге?

Четыре железных монстра для локального инференса LLM: Mac M5, NVIDIA DGX Spark, AMD Strix Halo и RTX 6000. Тесты памяти, скорости и цены. Кто реально тянет 70B+

Четыре кандидата в домашнюю AI-лабораторию

2026 год. Вы сидите с пустым кошельком, но с дерзкой мечтой запустить локально LLM размером с 70B или даже 120B параметров. Проблема: рынок предлагает четыре принципиально разных подхода, и каждый обещает райские кущи. Я взял Mac M5 Ultra (да, Apple наконец-то сделала его), DGX Spark (NVIDIA GB10 Grace Blackwell), AMD Strix Halo (тот самый гибрид с Ryzen AI 395+) и NVIDIA RTX 6000 Ada (рабочую лошадку с 48 ГБ). И устроил им адскую неделю тестов. Результаты — ниже.

Спойлер: победителя нет. Но есть железобетонные сценарии, где каждый из этих зверей превращается в тыкву или наоборот — в золотую карету.

Коротко: что у кого под капотом

ПараметрM5 UltraDGX SparkStrix HaloRTX 6000 Ada
Общая памятьдо 256 ГБ (единая)128 ГБ LPDDR5xдо 128 ГБ (shared)48 ГБ GDDR6
Пропускная способность~800 ГБ/с~273 ГБ/с~256 ГБ/с960 ГБ/с
Выделенные тензорные ядра64 (ANES)Blackwell Tensor CoresXDNA 2 NPUAda Tensor Cores
Цена (май 2026)~$7500~$4300~$3500 (система)~$6800 (только карта)

Цифры красивые. Но теория — теорией, а давайте гонять бенчмарки.

Методика: как я мучил железо

За основу взял четыре эталонные модели: Llama 3.1 8B (лёгкий вес), Mistral 7B (быстрый референс), Llama 3.1 70B (тяжеловес) и GPT-OSS-120B — ту самую модель, про которую я писал в статье про 120B для Strix Halo. Измерения: токенов в секунду при batch size=1, квантизация 4-bit (кроме случаев, когда 8-bit давала лучший результат). Все тесты — на Llama.cpp (последняя версия с поддержкой Metal, CUDA и ROCm). Никаких донастроек, всё out-of-box.

Важный нюанс: M5 Ultra и Strix Halo используют общую память для CPU и GPU, что позволяет загружать модели размером почти всю доступную память. RTX 6000 упирается в 48 ГБ, но работает быстрее за счёт огромной пропускной способности. DGX Spark — гибрид: 128 ГБ единой памяти, но через Grace CPU и Blackwell GPU.

Результаты: скорость vs объём — вечный компромисс

Лёгкие модели (7-8B)

Тут всё предсказуемо: RTX 6000 вырывается вперёд — 180-200 токенов/с против 70-80 у M5 Ultra и 50-60 у Strix Halo. DGX Spark выдаёт около 90 токенов/с — неплохо, но не рекорд. Зачем такие мощности под 8B модель? Если вы гоняете тысячи запросов в секунду — RTX 6000 ваш выбор. Но для домашнего использования разница незаметна. Все четыре машины выдают больше 50 токенов/с — это комфортный режим.

Тяжёлая артиллерия: 70B

Здесь начинается мясо. Llama 3.1 70B (4-bit) весит около 40 ГБ. RTX 6000 едва помещается (48 ГБ — с запасом для контекста 8K). Результат: 22 токена/с — отлично для 70B. M5 Ultra с 256 ГБ памяти грузит модель целиком и выдаёт 14 токенов/с — медленнее, но хватает для интерактивного чата. Strix Halo — 12 токенов/с (и это при нативной поддержке ROCm, что приятно). DGX Spark — 16 токенов/с. Сюрприз: DGX Spark обходит M5 по скорости, хотя память у него меньше. Причина: оптимизация Tensor Cores под Blackwell для Llama.cpp.

💡
Ошибка, которую я видел у новичков: пытаться впихнуть 70B модель на 48 ГБ с контекстом 32K+ и квантизацией 4-bit. Контекст съедает память, и модель начинает падать. Для длинных диалогов RTX 6000 не годится — нужно либо 8-bit (тогда 70B уже не влезает), либо брать карту с 80+ ГБ.

Сверхтяжёлый вес: GPT-OSS-120B

120B модель (4-bit) требует минимум 68 ГБ. Из наших подопытных только M5 Ultra и Strix Halo способны её запустить. DGX Spark формально имеет 128 ГБ, но архитектура «Grace + Blackwell» накладывает ограничения: модель должна полностью помещаться в GPU-часть, а она — всего 100 ГБ эффективно из-за разделения памяти. На практике GPT-OSS-120B на Spark работает, но с падением скорости до 5-7 токенов/с. M5 Ultra — 8 токенов/с. Strix Halo — 6 токенов/с. RTX 6000 даже не пытается — не хватает памяти. Вывод: если ваша цель — 120B модель дома, Mac M5 или компактный Mini PC на Strix Halo — единственные реалистичные варианты.

Пропускная способность — главный боттлнек

Почему M5 Ultra с 256 ГБ проигрывает RTX 6000 по скорости? Пропускная способность памяти. У M5 она ~800 ГБ/с, у RTX 6000 — 960 ГБ/с. Казалось бы, разница невелика. Но на практике квантизация 4-bit даёт нагрузку на GPU, и здесь важны количество тензорных ядер и тактовая частота памяти. RTX 6000 использует GDDR6 с частотой 20 Гбит/с, а M5 — LPDDR5x с частотой 8,5 Гбит/с. Разрыв в скорости выборки данных — в 2.5 раза на один канал.

Лайфхак: на M5 можно поднять скорость инференса, используя batch size 4-8 — параллельная обработка запросов даёт прирост. Но для однопользовательского чата это бессмысленно. Для сервера — отличный вариант.

Цена за токен: считаем деньги

Самое интересное — стоимость одного токена. Я взял среднюю стоимость владения (система в сборе) за 3 года, поделил на общее количество сгенерированных токенов (из расчёта 8 часов работы в день, модель 70B).

ПлатформаЦена токена (центов за 1 млн)Примечание
RTX 6000 (система ~$9000)0.87Ограничение по памяти
M5 Ultra ($7500)1.12Зато 256 ГБ
DGX Spark ($4300)0.72Лучший показатель!
Strix Halo ($3500)0.95Дёшево, но память едва хватает

DGX Spark — неожиданный лидер по цене за токен. Он быстрее M5 на 70B и стоит вдвое дешевле. Единственный минус — невозможность запустить 120B модель. Но для 70B это оптимальный выбор. Как я писал в глубоком разборе DGX Spark, 128 ГБ здесь не всегда спасают — но если модель помещается, скорость радует.

Неочевидный проигравший: AMD Strix Halo

Strix Halo выглядит привлекательно из-за цены и общей памяти. Но на практике его NPU XDNA 2 почти не используется в Llama.cpp (поддержка сырая). Tensor Cores имитируют шейдеры. Реальная производительность на 70B — на уровне M5, хотя M5 использует универсальные ядра. Если AMD не доведёт софт до ума, платформа рискует остаться нишевой игрушкой.

Когда какой брать?

  • RTX 6000 — если вам нужно выжать максимум из 7-13B моделей (например, для ботов с низкой задержкой) или вы используете модели с квантизацией 8-bit и контекстом до 8K. Сравнение с RTX 4090 показало, что 6000 выигрывает за счёт памяти.
  • DGX Spark — золотая середина для 70B и ниже. Отличная скорость, разумная цена. Идеальный кандидат для домашнего сервера.
  • M5 Ultra — если вам нужны модели 120B+ или длинный контекст (128K+). Как я сравнивал DGX Spark и Mac M3 Ultra — M5 наследует ту же философию.
  • Strix Halo — только если бюджет ограничен и вы готовы мириться с сырым софтом. Для 120B моделей — неплохой вариант, но лучше подождать RDNA 4 или V-Cache версии.

Кстати, если вы хотите сборочную машину для AI-ассистента — загляните в мой гайд по сборке персонального ИИ-ассистента. Там разбирал в том числе и эти конфиги.

И помните: локальный LLM — это не спринт, а марафон. Погоня за мегагерцами бесполезна, если модель не влезает в память. Через полгода выйдут новые архитектуры (говорят, NVIDIA готовит GB300 с 256 ГБ), но прямо сейчас выбор сводится к дилемме: хотите скорость на маленьких моделях — берите RTX 6000; хотите тяжёлый вес — Mac; хотите баланс — Spark. Strix Halo пока в роли тёмной лошадки — может выстрелить, если AMD подкрутит софт.

Ваш ход.

Подписаться на канал