Когда облачные счета начинают пугать
Представьте: вы месяц гоняете GLM 4.7 через API. Счет прилетает, и вы понимаете - за эти деньги можно купить собственный сервер. Знакомо? Вот и я столкнулся. Только выбор теперь не между облаком и локальным железом, а между тремя разными философиями локального железа.
Один путь - специализированная махина от NVIDIA. Второй - хитрая сборка на базе AMD Strix Halo. Третий - элегантный моноблок от Apple. Все три обещают запускать GLM 4.7 Flash с 20+ токенов в секунду. Все три стоят в одном ценовом диапазоне (условно). Но работают они совершенно по-разному.
Это не просто сравнение характеристик. Я тестировал все три системы на реальных задачах: запуск GLM 4.7 Flash, обработка длинных контекстов, параллельные запросы. И обнаружил нюансы, о которых не пишут в спецификациях.
Три разных подхода к одной задаче
Давайте сразу убьем маркетинг. Потому что под красивыми названиями прячутся разные инженерные решения.
| Параметр | NVIDIA DGX Spark | GMKtec Strix Halo | Mac Studio M3 Ultra |
|---|---|---|---|
| Сердце системы | RTX 6000 Ada (48GB VRAM) | AMD Ryzen AI 9 HX 370 (40 CU RDNA 3.5) | Apple M3 Ultra (32-core GPU, 24-core Neural Engine) |
| Память | 48GB VRAM + 16GB RAM (раздельная) | 64GB LPDDR5X (единая) | 128GB/192GB Unified Memory |
| Пропускная способность | 960 GB/s (VRAM) + 80 GB/s (RAM) | ~200 GB/s (системная память) | 800 GB/s (единая) |
| TDP под нагрузкой | 450-550 Вт | 65-85 Вт | 180-220 Вт |
| Примерная цена (янв. 2026) | $8,500 - $9,000 | $1,200 - $1,500 (сборка) | $6,000 - $7,500 (128GB) |
Цифры - это одно. Но как это работает в реальности? Я тестировал GLM 4.7 Flash (11B параметров, квантованная в Q4_K_M) на всех трех системах. Цель - стабильные 20+ токенов в секунду на контексте 8K.
Архитектура памяти: главный камень преткновения
Вот где начинается самое интересное. Большинство гонится за гигабайтами, но не понимает - как эти гигабайты работают.
В DGX Spark у вас 48GB быстрой VRAM и 16GB медленной RAM. Если модель не помещается в VRAM, часть уходит в RAM - и производительность падает в разы. Я об этом подробно писал в сравнении Spark и M3 Ultra для длинных контекстов.
В GMKtec Strix Halo - 64GB единой памяти, но пропускная способность всего 200 GB/s. Для сравнения: у RTX 6000 Ada в Spark - 960 GB/s. Разница почти в 5 раз.
В Mac Studio M3 Ultra - 128GB или 192GB единой памяти с пропускной 800 GB/s. Это золотая середина: много памяти и высокая скорость доступа.
Реальные тесты: GLM 4.7 Flash на практике
Я настраивал каждую систему под максимальную производительность. Использовал LM Studio с нативными бэкендами:
- DGX Spark: CUDA бэкенд, tensor-parallel=1, context length=8192
- GMKtec Strix Halo: Vulkan бэкенд (через AMD ROCm), те же настройки
- Mac Studio M3 Ultra: MLX бэкенд, нативная компиляция под Apple Silicon
| Метрика | DGX Spark | GMKtec Strix Halo | Mac Studio M3 Ultra |
|---|---|---|---|
| Токенов/с (среднее) | 28-32 | 18-22 | 24-28 |
| Time To First Token | 120-180 мс | 250-350 мс | 80-120 мс |
| Потребление под нагрузкой | 480-520 Вт | 70-80 Вт | 190-210 Вт |
| Шум (дБ) | 48-52 (слышно в соседней комнате) | 32-38 (едва слышно) | 28-32 (почти неслышно) |
Результаты интересные. DGX Spark быстрее всех, но платит за это энергией и шумом. GMKtec Strix Halo - самый тихий и экономичный, но проигрывает в скорости. Mac Studio M3 Ultra - баланс между скоростью, тишиной и эффективностью.
Почему Strix Halo медленнее, чем ожидалось?
AMD Ryzen AI 9 HX 370 - мощный чип. Но проблема в софте. Vulkan бэкенд для LLM в начале 2026 года все еще сырой по сравнению с CUDA. Оптимизации под RDNA 3.5 есть, но их недостаточно.
Вторая проблема - пропускная способность памяти. 200 GB/s против 800-960 GB/s у конкурентов. Для GLM 4.7 Flash этого хватает, но для более тяжелых моделей уже будет bottleneck.
Если вы выбираете Strix Halo, готовьтесь к танцам с настройкой. ROCm на Linux, драйверы, компиляция библиотек. Это не "поставил и работает" как на Mac. Но если разобраться - система показывает достойные результаты за свои деньги.
Энергопотребление: скрытая стоимость владения
Вот что большинство не считает. Возьмем Москву на январь 2026: 8.5 рублей за кВт·ч. Предположим, система работает 8 часов в день, 22 дня в месяц.
Давайте посчитаем:
- DGX Spark: 500 Вт × 8 ч × 22 дн = 88 кВт·ч × 8.5 руб = 748 руб/мес
- GMKtec Strix Halo: 75 Вт × 8 ч × 22 дн = 13.2 кВт·ч × 8.5 руб = 112 руб/мес
- Mac Studio M3 Ultra: 200 Вт × 8 ч × 22 дн = 35.2 кВт·ч × 8.5 руб = 299 руб/мес
Разница в 6.7 раз между Spark и Strix Halo. За год Spark съест на 7,600 рублей больше. За 3 года - почти 23,000 рублей. Это уже существенно.
Но есть нюанс: DGX Spark быстрее. Если ваше время стоит дорого, дополнительные токены в секунду могут окупить разницу в электричестве.
Сценарии использования: кому что подходит
Выбирайте DGX Spark, если:
- Нужна максимальная скорость инференса (выше 30 ток/с)
- Планируете работать с моделями больше 70B параметров
- Требуется полная совместимость с экосистемой NVIDIA (CUDA, TensorRT-LLM)
- Есть отдельное помещение под сервер (шум 50 дБ - это много)
- Не ограничены бюджетом на электроэнергию
Про настройку Spark я подробно писал в статье про реальный опыт использования DGX Spark. Там много подводных камней с родной ОС.
Выбирайте GMKtec Strix Halo, если:
- Бюджет ограничен $1,500
- Нужна тихая система для офиса или дома
- Готовы разбираться с настройкой ROCm и Vulkan
- Работаете с моделями до 30B параметров (больше - уже медленно)
- Цените энергоэффективность выше абсолютной скорости
Это вариант для энтузиастов, которые любят ковыряться в настройках. Готового решения как на Mac здесь нет.
Выбирайте Mac Studio M3 Ultra, если:
- Нужен баланс скорости, тишины и простоты настройки
- Работаете с длинными контекстами (128K+) - здесь M3 Ultra выигрывает
- Цените единую память (можно загрузить несколько моделей одновременно)
- Хотите систему, которая "просто работает" без танцев с драйверами
- Готовы платить премиум за дизайн и экосистему Apple
Про оптимизацию LLM на Apple Silicon есть отличная статья про vLLM-MLX и нативный инференс. Там разобраны тонкости настройки под максимальную производительность.
Подводные камни, о которых молчат продавцы
DGX Spark: проблема с тепловыделением
RTX 6000 Ada под нагрузкой греется до 75-80°C. Система охлаждения справляется, но шум при этом - как у пылесоса. В маленьком офисе это проблема. Еще момент: родная DGX OS часто конфликтует со сторонним софтом. Многие, как и я, переходят на чистую Ubuntu.
GMKtec Strix Halo: сырость софта
На январь 2026 года поддержка ROCm для Strix Halo все еще в разработке. Некоторые библиотеки собираются с костылями. Vulkan бэкенд для LLM менее оптимизирован, чем CUDA. Если вы не готовы копаться в исходниках и собирать зависимости - лучше рассмотреть другие варианты.
Mac Studio M3 Ultra: ограничения экосистемы
Не все фреймворки и модели оптимизированы под MLX. Экзотические архитектуры могут не работать. Апгрейд памяти невозможен - выбирайте сразу нужный объем. И да, 192GB версия стоит как хороший автомобиль.
Что будет через год? Прогноз на 2027
Глядя на тенденции начала 2026:
- AMD должна доработать ROCm для Strix Halo. Если оптимизируют Vulkan бэкенд - производительность может вырасти на 30-40%
- NVIDIA анонсировала Blackwell архитектуру. Возможно, появится DGX Spark v2 с более энергоэффективными картами
- Apple готовит M4 Ultra. Ожидается увеличение Neural Engine до 32 ядер и пропускной способности памяти до 1 TB/s
- Появятся новые форматы квантования, которые лучше используют возможности каждого железа
Мой совет: если не горит - подождите до конца 2026. Рынок локальных AI-серверов развивается стремительно. То, что сегодня стоит $9,000, через год может упасть в цене на 30%.
А если объединить системы?
Интересный подход - использовать разные системы для разных задач. Например:
- Mac Studio M3 Ultra - для разработки и тестирования моделей (тихо, много памяти)
- DGX Spark - для продакшн-инференса (максимальная скорость)
- GMKtec Strix Halo - как тестовый стенд или для менее критичных задач
Про кластеризацию LLM между разным железом я писал в отдельной статье. Можно распределять запросы между системами в зависимости от нагрузки и приоритета.
Неочевидный лайфхак: купите GMKtec Strix Halo сейчас как временное решение. Сэкономите на электричестве, поймете свои реальные потребности. А через год, когда выйдут новые поколения железа, продадите Strix Halo и купите то, что действительно нужно.
Вопросы, которые задают чаще всего
Хватит ли 64GB в Strix Halo для GLM 4.7 90B?
Нет. GLM 4.7 90B в Q4_K_M занимает около 48GB. Но для комфортной работы нужен запас под контекст. 64GB - это минимум. На практике лучше считать 1.5× от размера модели. Для 90B в Q4 нужно 72GB+. Strix Halo с 64GB не потянет.
Можно ли заменить RTX 6000 Ada в DGX Spark на две RTX 4090?
Теоретически да, но:
- Потеряете гарантию
- Нужен блок питания мощнее (850W+ минимум)
- NVLink между 4090 не работает как у профессиональных карт
- Суммарно получите 48GB VRAM (2×24GB), но скорость будет ниже из-за отсутствия NVLink
Стоит ли игра свеч? Только если очень хочется сэкономить и не боитесь проблем.
Почему Mac Studio такой дорогой при схожей с Spark производительности?
Вы платите не только за железо, но и за:
- Дизайн и материалы (цельный алюминиевый корпус)
- Энергоэффективность (в 2.5 раза экономичнее Spark)
- Тишину (28 дБ против 50+ дБ)
- Экосистему (macOS, Metal, MLX - все работает из коробки)
- Бренд (да, это тоже стоит денег)
Для многих этот комплекс стоит дополнительных $2,000-3,000.
Что лучше для обучения моделей, а не только инференса?
Для обучения (fine-tuning) DGX Spark вне конкуренции. CUDA, Tensor Cores, большая VRAM - это то, что нужно. Mac Studio M3 Ultra тоже может, но медленнее. Strix Halo - только для очень маленьких моделей или LoRA адаптеров.
Если планируете обучать модели серьезно - смотрите в сторону DGX Spark или сборки на базе нескольких RTX 4090/5090.
Итоговый чек-лист для выбора
- Определите бюджет (включая электроэнергию на 3 года)
- Решите, что важнее: абсолютная скорость или тишина/эффективность
- Проверьте, поместятся ли ваши модели в память (с запасом 50%)
- Оцените свою готовность копаться в настройках (Strix Halo) или хотите "из коробки" (Mac)
- Подумайте, не лучше ли подождать полгода - рынок меняется быстро
Мой выбор? Для большинства задач в начале 2026 - Mac Studio M3 Ultra 128GB. Баланс скорости, памяти, тишины и простоты. Но если бы бюджет был ограничен $1,500 - взял бы GMKtec Strix Halo и потратил сэкономленные деньги на курсы по оптимизации ROCm.
А DGX Spark оставил бы для тех, кто действительно знает, зачем им нужны эти дополнительные 5 токенов в секунду за тройную цену и впятеро больший счет за электричество.