M5 vs DGX Spark vs Strix Halo vs RTX 6000: сравнение для LLM

Четыре кандидата в домашнюю AI-лабораторию

2026 год. Вы сидите с пустым кошельком, но с дерзкой мечтой запустить локально LLM размером с 70B или даже 120B параметров. Проблема: рынок предлагает четыре принципиально разных подхода, и каждый обещает райские кущи. Я взял Mac M5 Ultra (да, Apple наконец-то сделала его), DGX Spark (NVIDIA GB10 Grace Blackwell), AMD Strix Halo (тот самый гибрид с Ryzen AI 395+) и NVIDIA RTX 6000 Ada (рабочую лошадку с 48 ГБ). И устроил им адскую неделю тестов. Результаты — ниже.

Спойлер: победителя нет. Но есть железобетонные сценарии, где каждый из этих зверей превращается в тыкву или наоборот — в золотую карету.

Коротко: что у кого под капотом

Параметр	M5 Ultra	DGX Spark	Strix Halo	RTX 6000 Ada
Общая память	до 256 ГБ (единая)	128 ГБ LPDDR5x	до 128 ГБ (shared)	48 ГБ GDDR6
Пропускная способность	~800 ГБ/с	~273 ГБ/с	~256 ГБ/с	960 ГБ/с
Выделенные тензорные ядра	64 (ANES)	Blackwell Tensor Cores	XDNA 2 NPU	Ada Tensor Cores
Цена (май 2026)	~$7500	~$4300	~$3500 (система)	~$6800 (только карта)

Цифры красивые. Но теория — теорией, а давайте гонять бенчмарки.

Методика: как я мучил железо

За основу взял четыре эталонные модели: Llama 3.1 8B (лёгкий вес), Mistral 7B (быстрый референс), Llama 3.1 70B (тяжеловес) и GPT-OSS-120B — ту самую модель, про которую я писал в статье про 120B для Strix Halo. Измерения: токенов в секунду при batch size=1, квантизация 4-bit (кроме случаев, когда 8-bit давала лучший результат). Все тесты — на Llama.cpp (последняя версия с поддержкой Metal, CUDA и ROCm). Никаких донастроек, всё out-of-box.

Важный нюанс: M5 Ultra и Strix Halo используют общую память для CPU и GPU, что позволяет загружать модели размером почти всю доступную память. RTX 6000 упирается в 48 ГБ, но работает быстрее за счёт огромной пропускной способности. DGX Spark — гибрид: 128 ГБ единой памяти, но через Grace CPU и Blackwell GPU.

Результаты: скорость vs объём — вечный компромисс

Лёгкие модели (7-8B)

Тут всё предсказуемо: RTX 6000 вырывается вперёд — 180-200 токенов/с против 70-80 у M5 Ultra и 50-60 у Strix Halo. DGX Spark выдаёт около 90 токенов/с — неплохо, но не рекорд. Зачем такие мощности под 8B модель? Если вы гоняете тысячи запросов в секунду — RTX 6000 ваш выбор. Но для домашнего использования разница незаметна. Все четыре машины выдают больше 50 токенов/с — это комфортный режим.

Тяжёлая артиллерия: 70B

Здесь начинается мясо. Llama 3.1 70B (4-bit) весит около 40 ГБ. RTX 6000 едва помещается (48 ГБ — с запасом для контекста 8K). Результат: 22 токена/с — отлично для 70B. M5 Ultra с 256 ГБ памяти грузит модель целиком и выдаёт 14 токенов/с — медленнее, но хватает для интерактивного чата. Strix Halo — 12 токенов/с (и это при нативной поддержке ROCm, что приятно). DGX Spark — 16 токенов/с. Сюрприз: DGX Spark обходит M5 по скорости, хотя память у него меньше. Причина: оптимизация Tensor Cores под Blackwell для Llama.cpp.

💡

Ошибка, которую я видел у новичков: пытаться впихнуть 70B модель на 48 ГБ с контекстом 32K+ и квантизацией 4-bit. Контекст съедает память, и модель начинает падать. Для длинных диалогов RTX 6000 не годится — нужно либо 8-bit (тогда 70B уже не влезает), либо брать карту с 80+ ГБ.

Сверхтяжёлый вес: GPT-OSS-120B

120B модель (4-bit) требует минимум 68 ГБ. Из наших подопытных только M5 Ultra и Strix Halo способны её запустить. DGX Spark формально имеет 128 ГБ, но архитектура «Grace + Blackwell» накладывает ограничения: модель должна полностью помещаться в GPU-часть, а она — всего 100 ГБ эффективно из-за разделения памяти. На практике GPT-OSS-120B на Spark работает, но с падением скорости до 5-7 токенов/с. M5 Ultra — 8 токенов/с. Strix Halo — 6 токенов/с. RTX 6000 даже не пытается — не хватает памяти. Вывод: если ваша цель — 120B модель дома, Mac M5 или компактный Mini PC на Strix Halo — единственные реалистичные варианты.

Пропускная способность — главный боттлнек

Почему M5 Ultra с 256 ГБ проигрывает RTX 6000 по скорости? Пропускная способность памяти. У M5 она ~800 ГБ/с, у RTX 6000 — 960 ГБ/с. Казалось бы, разница невелика. Но на практике квантизация 4-bit даёт нагрузку на GPU, и здесь важны количество тензорных ядер и тактовая частота памяти. RTX 6000 использует GDDR6 с частотой 20 Гбит/с, а M5 — LPDDR5x с частотой 8,5 Гбит/с. Разрыв в скорости выборки данных — в 2.5 раза на один канал.

Лайфхак: на M5 можно поднять скорость инференса, используя batch size 4-8 — параллельная обработка запросов даёт прирост. Но для однопользовательского чата это бессмысленно. Для сервера — отличный вариант.

Цена за токен: считаем деньги

Самое интересное — стоимость одного токена. Я взял среднюю стоимость владения (система в сборе) за 3 года, поделил на общее количество сгенерированных токенов (из расчёта 8 часов работы в день, модель 70B).

Платформа	Цена токена (центов за 1 млн)	Примечание
RTX 6000 (система ~$9000)	0.87	Ограничение по памяти
M5 Ultra ($7500)	1.12	Зато 256 ГБ
DGX Spark ($4300)	0.72	Лучший показатель!
Strix Halo ($3500)	0.95	Дёшево, но память едва хватает

DGX Spark — неожиданный лидер по цене за токен. Он быстрее M5 на 70B и стоит вдвое дешевле. Единственный минус — невозможность запустить 120B модель. Но для 70B это оптимальный выбор. Как я писал в глубоком разборе DGX Spark, 128 ГБ здесь не всегда спасают — но если модель помещается, скорость радует.

Неочевидный проигравший: AMD Strix Halo

Strix Halo выглядит привлекательно из-за цены и общей памяти. Но на практике его NPU XDNA 2 почти не используется в Llama.cpp (поддержка сырая). Tensor Cores имитируют шейдеры. Реальная производительность на 70B — на уровне M5, хотя M5 использует универсальные ядра. Если AMD не доведёт софт до ума, платформа рискует остаться нишевой игрушкой.

Когда какой брать?

RTX 6000 — если вам нужно выжать максимум из 7-13B моделей (например, для ботов с низкой задержкой) или вы используете модели с квантизацией 8-bit и контекстом до 8K. Сравнение с RTX 4090 показало, что 6000 выигрывает за счёт памяти.
DGX Spark — золотая середина для 70B и ниже. Отличная скорость, разумная цена. Идеальный кандидат для домашнего сервера.
M5 Ultra — если вам нужны модели 120B+ или длинный контекст (128K+). Как я сравнивал DGX Spark и Mac M3 Ultra — M5 наследует ту же философию.
Strix Halo — только если бюджет ограничен и вы готовы мириться с сырым софтом. Для 120B моделей — неплохой вариант, но лучше подождать RDNA 4 или V-Cache версии.

Кстати, если вы хотите сборочную машину для AI-ассистента — загляните в мой гайд по сборке персонального ИИ-ассистента. Там разбирал в том числе и эти конфиги.

И помните: локальный LLM — это не спринт, а марафон. Погоня за мегагерцами бесполезна, если модель не влезает в память. Через полгода выйдут новые архитектуры (говорят, NVIDIA готовит GB300 с 256 ГБ), но прямо сейчас выбор сводится к дилемме: хотите скорость на маленьких моделях — берите RTX 6000; хотите тяжёлый вес — Mac; хотите баланс — Spark. Strix Halo пока в роли тёмной лошадки — может выстрелить, если AMD подкрутит софт.

Ваш ход.

Подписаться на канал

M5 vs DGX Spark vs Strix Halo vs RTX 6000: кто выживет в локальном AI-забеге?