128 ГБ памяти - это много или мало в 2026 году?
Вы смотрите на спецификации DGX Spark GB10 и видите магическую цифру: 128 ГБ unified memory. В голове сразу рисуются картины: запускаю любую модель, хоть GPT-OSS-120B, хоть Llama 3.3 400B, все летает. Реальность, как обычно, бьет по голове молотком.
Важно: unified memory ≠ оперативная память. Это единое адресное пространство между CPU и GPU. Но скорость доступа к разным сегментам отличается в разы.
Первый миф, который нужно убить сразу: "128 ГБ - значит, влезет любая модель". Технически - да. Практически - нет. Потому что память не резиновая, а инференс требует не только весов модели, но и:
- Кэш ключей-значений (KV cache) для длинного контекста
- Промежуточные активации
- Буферы для оптимизаторов (если дообучаете)
- Место под систему и другие процессы
Возьмем конкретный пример: GPT-OSS-120B в формате 4-битного квантования (GPTQ). Модель занимает около 60 ГБ. Кажется, осталось еще 68 ГБ - куча места! Но теперь представьте контекст в 128 тысяч токенов. KV cache для такой длины съест еще 20-30 ГБ в зависимости от реализации. И вот уже 90 ГБ из 128 занято.
Почему RTX 4090 с 24 ГБ иногда быстрее?
Здесь начинается самое интересное. У меня в лаборатории стоят рядом DGX Spark GB10 и система с тремя RTX 4090 (72 ГБ суммарно). И в некоторых сценариях RTX 4090 выигрывают. Почему?
| Сценарий | DGX Spark GB10 | 3x RTX 4090 | Почему? |
|---|---|---|---|
| Короткие промпты (до 2K токенов) | 45 токенов/с | 68 токенов/с | Выше тактовая частота GPU |
| Длинный контекст (128K) | 12 токенов/с | Не влезает | Unified memory решает |
| Параллельные запросы (10 потоков) | 18 токенов/с каждый | Падение до 5 токенов/с | Лучшая изоляция памяти |
Ключевое отличие не в объеме, а в архитектуре доступа. На DGX Spark все 128 ГБ видны как единое целое. На системе с несколькими RTX 4090 каждая карта живет своей жизнью, и передача данных между ними идет через PCIe 4.0 x16 (или x8, если не повезло с материнкой).
Когда 128 ГБ действительно спасают ситуацию?
Я выделил три сценария, где DGX Spark GB10 становится безальтернативным выбором:
1. Анализ длинных документов с контекстом 128K+
Представьте: нужно проанализировать 500-страничный технический мануал. Или сравнить несколько научных статей. Или обработать чат из поддержки за год. Контекст в 200 тысяч токенов - это не маркетинговая фича, а реальная необходимость.
На системе с раздельной памятью вам придется:
- Разбивать документ на куски
- Терять связи между разделами
- Искусственно ограничивать контекст
На DGX Spark - загружаете весь документ целиком. Модель видит полную картину. В моем тесте с LLM-IDS для nginx это было критично: атаки часто растянуты во времени, и только полный контекст позволяет их выявить.
2. Мультимодальные модели с высоким разрешением
GPT-4V-like модели, которые обрабатывают изображения 4K. Каждое изображение - это десятки тысяч токенов в эмбеддинге. Плюс текстовый контекст. Плюс история диалога.
В феврале 2026 года выходят модели типа LLaVA-Next с поддержкой видео. 10-секундный клип в 30 FPS - это 300 кадров. Даже со сжатием это гигабайты данных. И все это нужно держать в памяти одновременно.
3. Разработка и fine-tuning больших моделей
Здесь начинается магия. Вы не просто запускаете инференс, а дообучаете модель. Нужно держать в памяти:
- Веса модели (60 ГБ для GPT-OSS-120B в 4-bit)
- Градиенты (еще 60 ГБ в полной точности)
- Оптимизаторные состояния (AdamW требует 2x веса модели)
- Активации для обратного распространения
Суммарно для fine-tuning GPT-OSS-120B даже в LoRA требуется 90+ ГБ. Только DGX Spark или кластер из нескольких карт. Но кластер - это сложности с синхронизацией, потеря скорости на коммуникации.
Когда DGX Spark GB10 - пустая трата денег?
А теперь жесткая правда. Есть сценарии, где покупка DGX Spark - это как использовать грузовик для поездки в магазин за хлебом.
Сценарий 1: Вы работаете только с 7B-13B моделями
Llama 3.2 11B в 4-bit занимает 6-7 ГБ. Mistral 12B - около 7 ГБ. Даже с контекстом 32K они укладываются в 16 ГБ. Зачем вам 128 ГБ? 90% памяти будут простаивать.
Лучше взять RTX 4090 или даже RTX 4080 Super. Дешевле в 3-4 раза, тише, меньше потребляет. И производительность в токенах в секунду будет выше за счет более быстрых ядер.
Сценарий 2: Batch processing маленьких промптов
Нужно обработать 10 тысяч коротких запросов? На DGX Spark вы будете использовать 5% его возможностей. Память не загружена, вычислительные ядра простаивают.
Здесь выигрывают системы с несколькими GPU среднего класса. За те же деньги можно собрать 4x RTX 4070 Ti Super (4x16 ГБ = 64 ГБ) и обрабатывать запросы параллельно.
Сценарий 3: Edge-развертывание
DGX Spark потребляет 450-600 Вт под нагрузкой. Это не Edge-устройство, это маленькая электростанция. Для Edge AI нужны другие решения: Jetson Orin, Intel Meteor Lake с большим ОЗУ, или тот же Strix Halo 395, о котором я писал в сравнении с Strix Halo.
Практические тесты: цифры вместо слов
Я провел неделю тестов. Оборудование:
- DGX Spark GB10 (Grace-Blackwell, 128 ГБ unified)
- Система с 3x RTX 4090 (72 ГБ суммарно)
- Mac Studio M3 Ultra (192 ГБ unified)
Модели:
- GPT-OSS-120B (4-bit GPTQ, группа 128)
- Llama 3.3 70B (3-bit AWQ)
- Qwen 2.5 32B (8-bit, без квантования)
| Модель / Контекст | DGX Spark GB10 | 3x RTX 4090 | Примечания |
|---|---|---|---|
| GPT-OSS-120B / 4K | 14.2 токенов/с | 18.5 токенов/с | RTX быстрее на 30% |
| GPT-OSS-120B / 128K | 3.8 токенов/с | Не запускается | Не хватает памяти |
| Llama 3.3 70B / 4K | 42.1 токенов/с | 51.3 токенов/с | Разница меньше |
| 10 параллельных потоков | 9.7 токенов/с каждый | Сильные просадки | Изоляция памяти работает |
Выводы противоречивые. Для коротких контекстов классические GPU выигрывают. Для длинных - только unified memory. Для параллельной обработки - снова unified memory.
Оптимизация памяти: как выжать максимум из 128 ГБ
Купили DGX Spark? Теперь нужно настроить. По умолчанию он работает как слон в посудной лавке.
Шаг 1: Выбор формата квантования
На февраль 2026 года актуальны три формата:
- GPTQ - для NVIDIA GPU, лучшее качество при 4-bit
- AWQ - новый стандарт, меньше потерь при 3-bit
- EXL2 - экстремальное сжатие до 2-bit для очень больших моделей
Для GPT-OSS-120B рекомендация: AWQ 3-bit. Занимает 45 ГБ вместо 60 ГБ у GPTQ 4-bit. Качество падает на 2-3%, но память экономит существенно.
Шаг 2: Настройка KV cache
Самая большая дыра в памяти. По умолчанию многие фреймворки резервируют KV cache под максимальный контекст. Если у вас модель с поддержкой 128K, они зарезервируют память под 128K, даже если ваш промпт всего 1K.
В vLLM (актуальная версия на февраль 2026 - 0.4.2) настройте:
from vllm import LLM, SamplingParams
# НЕПРАВИЛЬНО - резервируем под максимум
llm = LLM(model="gpt-oss-120b-awq-3bit", max_num_seqs=10)
# ПРАВИЛЬНО - динамическое выделение
llm = LLM(
model="gpt-oss-120b-awq-3bit",
max_num_seqs=10,
gpu_memory_utilization=0.85, # Не жадничаем
enable_prefix_caching=True, # Кэшируем общие префиксы
block_size=16, # Меньше фрагментация
max_model_len=32768 # Ограничиваем, если не нужно 128K
)
Шаг 3: Мониторинг и профилирование
Установите NVIDIA Data Center GPU Manager (DCGM). Без него вы слепы.
# Установка DCGM (актуально для Ubuntu 24.04)
sudo apt-get install -y datacenter-gpu-manager
sudo systemctl start nvidia-dcgm
sudo systemctl enable nvidia-dcgm
# Мониторинг в реальном времени
dcgmi dmon -e 1001,1002,1003,1004 -c 10
Ключевые метрики:
- GPU Utilization - должна быть 70%+ при инференсе
- Memory Utilization - если меньше 60%, вы переплачиваете
- PCIe Throughput - если высокий, значит много данных гоняется между CPU/GPU
Альтернативы: что купить вместо DGX Spark?
Если цена в $15,000+ пугает, есть варианты.
Вариант А: Сборка на RTX 6000 Ada
Одна RTX 6000 Ada - 48 ГБ GDDR6. Две карты - 96 ГБ. Цена: $6,800 x 2 = $13,600. Плюс система: $2,000. Итого: $15,600.
Плюсы против DGX Spark:
- Можно начать с одной карты
- Лучшая поддержка в играх (если вдруг)
- Меньше энергопотребление на карту
Минусы:
- Нет unified memory, нужно явно распределять модели
- Сложнее настраивать multi-GPU
- Занимает больше слотов
Вариант Б: Mac Studio M3 Ultra
192 ГБ unified memory за $7,200 (базовая конфигурация). Кажется, идеально? Не совсем.
Проблема в ПО. Большинство оптимизаций под LLM заточены под CUDA. Metal Performance Shaders (MPS) от Apple - сыроваты. Особенно для квантованных моделей. В моих тестах GPT-OSS-120B на M3 Ultra работала в 1.5 раза медленнее, чем на DGX Spark.
Но для некоторых задач - идеально. Например, для кластеризации LLM, где Mac обрабатывает легкие запросы, а DGX - тяжелые.
Ошибки, которые совершают все
Предупреждение: эти ошибки стоили мне недели отладки. Не повторяйте.
Ошибка 1: Загрузка модели в FP16
"У меня же 128 ГБ, зачем квантовать?" - думают новички. И загружают модель в полной точности. GPT-OSS-120B в FP16 занимает 240 ГБ. Да, больше, чем есть памяти. Система начинает свопиться на диск. Скорость падает до 0.1 токена в секунду.
Ошибка 2: Неправильный batch size
vLLM по умолчанию использует adaptive batching. Но он плохо работает с очень большими моделями. Нужно вручную выставить:
# Вместо авто-батчинга
llm = LLM(model="large-model")
# Ручная настройка
llm = LLM(
model="large-model",
max_num_batched_tokens=4096, # Ограничиваем
max_num_seqs=4, # Маленький batch для начала
tensor_parallel_size=1 # Не делим модель
)
Ошибка 3: Игнорирование температуры системы
DGX Spark под нагрузкой греется. Сильно. Без proper cooling GPU троттлит уже через 10 минут. Встроенные кулеры справляются, но если поставить систему в плохо вентилируемую стойку - готовьтесь к thermal throttling.
Решение: мониторить температуру и ставить дополнительное охлаждение. Или как я - вынести систему в отдельную комнату. Гул вентиляторов на 60 дБ - это не фон для работы.
Итоговый чеклист: покупать или нет?
Покупайте DGX Spark GB10 если:
- Работаете с контекстами 64K+ токенов регулярно
- Нужен fine-tuning моделей 70B+ параметров
- Запускаете мультимодальные модели с высоким разрешением
- Обрабатываете несколько больших моделей параллельно
- Бюджет позволяет (система + настройка = $20,000+)
Не покупайте DGX Spark GB10 если:
- Хватит моделей до 30B параметров
- Контекст редко превышает 8K токенов
- Нужно Edge-решение (смотрите в сторону Strix Halo или RTX 6000)
- Бюджет ограничен $10,000
- Нет опыта настройки серверного железа
Мой вердикт после полугода использования: DGX Spark GB10 - нишевый инструмент. Не для всех. Но когда он нужен - альтернатив нет. Это как профессиональная видеокамера: тяжелая, дорогая, сложная. Но кадры, которые она дает, не сравнимы с iPhone.
Последний совет: перед покупкой арендуйте на месяц. AWS предлагает инстансы с DGX Spark за $12/час. За $8,640 (30 дней) вы поймете, нужен ли он вам. Дешевле, чем купить и понять, что ошибся.
А если уже купили и боретесь с настройкой - welcome to the club. Пишите в комментарии, помогу. Первый совет - прочтите мою статью про тонкости настройки DGX Spark. Сэкономит неделю жизни.