Четыре кандидата в домашнюю AI-лабораторию
2026 год. Вы сидите с пустым кошельком, но с дерзкой мечтой запустить локально LLM размером с 70B или даже 120B параметров. Проблема: рынок предлагает четыре принципиально разных подхода, и каждый обещает райские кущи. Я взял Mac M5 Ultra (да, Apple наконец-то сделала его), DGX Spark (NVIDIA GB10 Grace Blackwell), AMD Strix Halo (тот самый гибрид с Ryzen AI 395+) и NVIDIA RTX 6000 Ada (рабочую лошадку с 48 ГБ). И устроил им адскую неделю тестов. Результаты — ниже.
Спойлер: победителя нет. Но есть железобетонные сценарии, где каждый из этих зверей превращается в тыкву или наоборот — в золотую карету.
Коротко: что у кого под капотом
| Параметр | M5 Ultra | DGX Spark | Strix Halo | RTX 6000 Ada |
|---|---|---|---|---|
| Общая память | до 256 ГБ (единая) | 128 ГБ LPDDR5x | до 128 ГБ (shared) | 48 ГБ GDDR6 |
| Пропускная способность | ~800 ГБ/с | ~273 ГБ/с | ~256 ГБ/с | 960 ГБ/с |
| Выделенные тензорные ядра | 64 (ANES) | Blackwell Tensor Cores | XDNA 2 NPU | Ada Tensor Cores |
| Цена (май 2026) | ~$7500 | ~$4300 | ~$3500 (система) | ~$6800 (только карта) |
Цифры красивые. Но теория — теорией, а давайте гонять бенчмарки.
Методика: как я мучил железо
За основу взял четыре эталонные модели: Llama 3.1 8B (лёгкий вес), Mistral 7B (быстрый референс), Llama 3.1 70B (тяжеловес) и GPT-OSS-120B — ту самую модель, про которую я писал в статье про 120B для Strix Halo. Измерения: токенов в секунду при batch size=1, квантизация 4-bit (кроме случаев, когда 8-bit давала лучший результат). Все тесты — на Llama.cpp (последняя версия с поддержкой Metal, CUDA и ROCm). Никаких донастроек, всё out-of-box.
Важный нюанс: M5 Ultra и Strix Halo используют общую память для CPU и GPU, что позволяет загружать модели размером почти всю доступную память. RTX 6000 упирается в 48 ГБ, но работает быстрее за счёт огромной пропускной способности. DGX Spark — гибрид: 128 ГБ единой памяти, но через Grace CPU и Blackwell GPU.
Результаты: скорость vs объём — вечный компромисс
Лёгкие модели (7-8B)
Тут всё предсказуемо: RTX 6000 вырывается вперёд — 180-200 токенов/с против 70-80 у M5 Ultra и 50-60 у Strix Halo. DGX Spark выдаёт около 90 токенов/с — неплохо, но не рекорд. Зачем такие мощности под 8B модель? Если вы гоняете тысячи запросов в секунду — RTX 6000 ваш выбор. Но для домашнего использования разница незаметна. Все четыре машины выдают больше 50 токенов/с — это комфортный режим.
Тяжёлая артиллерия: 70B
Здесь начинается мясо. Llama 3.1 70B (4-bit) весит около 40 ГБ. RTX 6000 едва помещается (48 ГБ — с запасом для контекста 8K). Результат: 22 токена/с — отлично для 70B. M5 Ultra с 256 ГБ памяти грузит модель целиком и выдаёт 14 токенов/с — медленнее, но хватает для интерактивного чата. Strix Halo — 12 токенов/с (и это при нативной поддержке ROCm, что приятно). DGX Spark — 16 токенов/с. Сюрприз: DGX Spark обходит M5 по скорости, хотя память у него меньше. Причина: оптимизация Tensor Cores под Blackwell для Llama.cpp.
Сверхтяжёлый вес: GPT-OSS-120B
120B модель (4-bit) требует минимум 68 ГБ. Из наших подопытных только M5 Ultra и Strix Halo способны её запустить. DGX Spark формально имеет 128 ГБ, но архитектура «Grace + Blackwell» накладывает ограничения: модель должна полностью помещаться в GPU-часть, а она — всего 100 ГБ эффективно из-за разделения памяти. На практике GPT-OSS-120B на Spark работает, но с падением скорости до 5-7 токенов/с. M5 Ultra — 8 токенов/с. Strix Halo — 6 токенов/с. RTX 6000 даже не пытается — не хватает памяти. Вывод: если ваша цель — 120B модель дома, Mac M5 или компактный Mini PC на Strix Halo — единственные реалистичные варианты.
Пропускная способность — главный боттлнек
Почему M5 Ultra с 256 ГБ проигрывает RTX 6000 по скорости? Пропускная способность памяти. У M5 она ~800 ГБ/с, у RTX 6000 — 960 ГБ/с. Казалось бы, разница невелика. Но на практике квантизация 4-bit даёт нагрузку на GPU, и здесь важны количество тензорных ядер и тактовая частота памяти. RTX 6000 использует GDDR6 с частотой 20 Гбит/с, а M5 — LPDDR5x с частотой 8,5 Гбит/с. Разрыв в скорости выборки данных — в 2.5 раза на один канал.
Лайфхак: на M5 можно поднять скорость инференса, используя batch size 4-8 — параллельная обработка запросов даёт прирост. Но для однопользовательского чата это бессмысленно. Для сервера — отличный вариант.
Цена за токен: считаем деньги
Самое интересное — стоимость одного токена. Я взял среднюю стоимость владения (система в сборе) за 3 года, поделил на общее количество сгенерированных токенов (из расчёта 8 часов работы в день, модель 70B).
| Платформа | Цена токена (центов за 1 млн) | Примечание |
|---|---|---|
| RTX 6000 (система ~$9000) | 0.87 | Ограничение по памяти |
| M5 Ultra ($7500) | 1.12 | Зато 256 ГБ |
| DGX Spark ($4300) | 0.72 | Лучший показатель! |
| Strix Halo ($3500) | 0.95 | Дёшево, но память едва хватает |
DGX Spark — неожиданный лидер по цене за токен. Он быстрее M5 на 70B и стоит вдвое дешевле. Единственный минус — невозможность запустить 120B модель. Но для 70B это оптимальный выбор. Как я писал в глубоком разборе DGX Spark, 128 ГБ здесь не всегда спасают — но если модель помещается, скорость радует.
Неочевидный проигравший: AMD Strix Halo
Strix Halo выглядит привлекательно из-за цены и общей памяти. Но на практике его NPU XDNA 2 почти не используется в Llama.cpp (поддержка сырая). Tensor Cores имитируют шейдеры. Реальная производительность на 70B — на уровне M5, хотя M5 использует универсальные ядра. Если AMD не доведёт софт до ума, платформа рискует остаться нишевой игрушкой.
Когда какой брать?
- RTX 6000 — если вам нужно выжать максимум из 7-13B моделей (например, для ботов с низкой задержкой) или вы используете модели с квантизацией 8-bit и контекстом до 8K. Сравнение с RTX 4090 показало, что 6000 выигрывает за счёт памяти.
- DGX Spark — золотая середина для 70B и ниже. Отличная скорость, разумная цена. Идеальный кандидат для домашнего сервера.
- M5 Ultra — если вам нужны модели 120B+ или длинный контекст (128K+). Как я сравнивал DGX Spark и Mac M3 Ultra — M5 наследует ту же философию.
- Strix Halo — только если бюджет ограничен и вы готовы мириться с сырым софтом. Для 120B моделей — неплохой вариант, но лучше подождать RDNA 4 или V-Cache версии.
Кстати, если вы хотите сборочную машину для AI-ассистента — загляните в мой гайд по сборке персонального ИИ-ассистента. Там разбирал в том числе и эти конфиги.
И помните: локальный LLM — это не спринт, а марафон. Погоня за мегагерцами бесполезна, если модель не влезает в память. Через полгода выйдут новые архитектуры (говорят, NVIDIA готовит GB300 с 256 ГБ), но прямо сейчас выбор сводится к дилемме: хотите скорость на маленьких моделях — берите RTX 6000; хотите тяжёлый вес — Mac; хотите баланс — Spark. Strix Halo пока в роли тёмной лошадки — может выстрелить, если AMD подкрутит софт.
Ваш ход.