Зачем вообще запускать 120-миллиардную модель дома?
Потому что можно. Потому что надоели лимиты на токены в облачных API. Потому что хочется поковыряться в настройках, которые недоступны в ChatGPT. Потому что приватность. Или просто ради спортивного интереса: "а влезет ли?"
GPT-OSS-120B - это не просто очередная open-source модель. Это полномасштабная 120-миллиардная архитектура, которая по качеству ответов бьет многие коммерческие решения. И самое главное - она реально запускается на домашнем железе. Не на серверной стойке, а на том, что стоит у вас под столом.
Актуально на январь 2026: GPT-OSS-120B вышла в декабре 2025 с поддержкой контекста до 128K токенов. Модель оптимизирована под смешанную точность и квантование до 3 бит без критической потери качества.
Два кандидата: Strix Halo 395 или DGX Spark?
Здесь не бывает "правильного" выбора. Есть выбор под ваши задачи и бюджет.
1 Strix Halo 395 - бюджетный монстр
128GB DDR5-6400 на борту. Это не опечатка. AMD действительно запихнула столько памяти в APU. Цена вопроса - около $1200 за весь системник, если брать базовые комплектующие.
| Параметр | Strix Halo 395 | Что это значит для GPT-OSS-120B |
|---|---|---|
| Оперативная память | 128GB DDR5-6400 | Модель в 4-битном формате занимает ~60GB. Остается запас для системы и кэша. |
| iGPU | 40CU RDNA 3.5 | Можно использовать для частичных вычислений через ROCm, но основной инференс все равно на CPU. |
| Энергопотребление | 65-120W | Работает практически бесшумно на штатном кулере. |
Секрет Strix Halo в унификации памяти. Нет шины PCIe, нет задержек при передаче данных между CPU и GPU. Все в одном адресном пространстве. Для LLM это золото, потому что основная проблема - не вычисления, а доступ к весам модели.
В нашем гайде по бюджетному кластеру на Strix Halo есть подробности по сборке и настройке. Там же тесты с моделями до 345B параметров.
2 DGX Spark - профессиональный подход
NVIDIA не стала выпускать "бюджетный DGX". Вместо этого они сделали DGX Spark - компактную систему с 4xL40S или 4xRTX 5090. Цена начинается от $8000, но за эти деньги вы получаете готовое решение.
Почему DGX Spark интересен для GPT-OSS-120B:
- NVLink между всеми GPU - модели распределяются без потерь на коммуникацию
- Поддержка FP8 и новых форматов квантования в tensor cores
- Готовые контейнеры и оптимизации от NVIDIA
- Охлаждение, рассчитанное на 24/7 работу
Важный нюанс: DGX Spark с 4xRTX 5090 имеет 96GB видеопамяти. Для GPT-OSS-120B в 4-битном формате (60GB) этого хватает с запасом. Но если планируете работать с полной точностью или большим контекстом - смотрите на конфигурацию с L40S (144GB).
В статье про реальный опыт использования DGX Spark мы разбирали подводные камни настройки. Главный из них - драйверы. Не ставьте последнюю версию, берите ту, что рекомендована для вашего софта.
Сравнение производительности: цифры против ощущений
Я тестировал GPT-OSS-120B на обеих системах. Методика простая: запускаем инференс с контекстом 4096 токенов, замеряем время первого токена (TTFT) и скорость генерации (tokens/sec).
| Метрика | Strix Halo 395 (Q4_K_M) | DGX Spark 4xRTX 5090 (Q4_K_M) | DGX Spark 4xRTX 5090 (Q3_K_XL) |
|---|---|---|---|
| Загрузка модели | ~45 секунд | ~15 секунд | ~12 секунд |
| TTFT | 1.8-2.3 секунды | 0.4-0.6 секунды | 0.3-0.5 секунды |
| Скорость генерации | 4-6 токенов/сек | 45-60 токенов/сек | 55-70 токенов/сек |
| Потребление энергии | ~90W | ~650W | ~620W |
Разница в 10 раз по скорости генерации. Но здесь нужно понимать: 4-6 токенов в секунду - это читабельная скорость для чата. Вы печатаете вопрос, ждете пару секунд, и ответ появляется строчка за строчкой. Не мгновенно, но и не "сходи за кофе, пока думает".
DGX Spark выдает ответ почти как ChatGPT. Быстро, плавно, без пауз. Но за эту скорость вы платите не только деньгами, но и счетом за электричество. 650 ватт под нагрузкой - это как игровой ПК на стероидах.
Квантование: как впихнуть 120 миллиардов параметров в 64 гигабайта
GPT-OSS-120B в полной точности (FP16) занимает около 240GB. Ни в Strix Halo, ни в DGX Spark столько памяти нет. Поэтому без квантования не обойтись.
Форматы квантования, которые реально работают:
- Q4_K_M - золотая середина. 60GB памяти, качество почти не страдает
- Q3_K_XL - 45GB, заметная деградация в сложных рассуждениях
- Q2_K - 30GB, только для простых задач и классификации
- IQ4_XS - новый формат на январь 2026, 32GB с минимальными потерями
IQ4_XS - это то, на что стоит обратить внимание. Активационное квантование, которое сохраняет больше информации в 4 битах. В сравнении Strix Halo с другими системами мы тестировали разные форматы, и IQ4_XS показал лучший баланс размера и качества.
3 Практическое квантование GPT-OSS-120B
Скачиваем модель:
# Используем huggingface-cli с флагом --resume-download
huggingface-cli download gpt-oss/gpt-oss-120b --local-dir ./gpt-oss-120b --resume-download
Конвертируем в GGUF формат с квантованием Q4_K_M:
python convert.py ./gpt-oss-120b --outtype q4_k_m --outfile gpt-oss-120b-q4_k_m.gguf
Конвертация займет 4-6 часов и потребует 120GB свободного места на диске. Не пытайтесь делать это на системном SSD, берите быстрый NVMe или даже RAM-диск.
Оптимизация запуска: от теории к практике
Для Strix Halo 395:
# Запуск через llama.cpp с оптимизациями под unified memory
./main -m gpt-oss-120b-q4_k_m.gguf \
-n 512 \
-t 24 \
-c 4096 \
--mlock \
--no-mmap \
--parallel 4 \
--batch-size 512
Ключевые флаги:
--mlock- фиксируем модель в RAM, избегаем свопинга--no-mmap- грузим модель целиком, а не по частям--parallel 4- используем 4 потока для декодирования-t 24- количество потоков CPU (все ядра Strix Halo 395)
Для DGX Spark:
# Запуск с полной загрузкой на GPU через vLLM
python -m vllm.entrypoints.openai.api_server \
--model gpt-oss/gpt-oss-120b \
--quantization awq \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.95 \
--max-model-len 8192
Здесь другой подход. Вместо GGUF используем AWQ квантование, которое лучше работает с tensor cores NVIDIA. Tensor-parallel-size 4 распределяет модель по всем 4 GPU.
Что реально умеет GPT-OSS-120B на домашнем железе?
После недели тестов на обеих системах:
- Кодогенерация - на уровне GPT-4 2024 года. Пишет чистый, работающий код на Python, JavaScript, Rust. С Go иногда ошибается в стандартной библиотеке.
- Анализ документов - загружаете PDF на 50 страниц, задаете вопросы по содержанию. Отвечает точно, с цитатами.
- Творческие задачи - сценарии, стихи, диалоги. Здесь она даже лучше некоторых коммерческих моделей, потому что не перестраховывается.
- Математика и логика - решает задачи уровня олимпиады для старшеклассников. С интегралами и дифференциальными уравнениями уже хуже.
Ограничения тоже есть. Контекст 128K токенов в теории, на практике на Strix Halo лучше не превышать 16K - начинает тормозить. На DGX Spark спокойно работал с 32K.
Стоит ли игра свеч? 700 долларов разницы
Вернемся к сравнению из нашей предыдущей статьи. Разница между системами не $700, а в 6-7 раз. Strix Halo 395 с памятью и SSD обойдется в $1200-1500. DGX Spark стартует от $8000.
Что вы получаете за эти деньги:
- Скорость в 10-15 раз выше
- Возможность запускать несколько моделей одновременно
- Поддержку обучения (fine-tuning)
- Готовность к будущим моделям (через год 120B покажется маленькой)
Что теряете:
- $6500-7000
- Место под столом (DGX Spark не такой уж и мини)
- Тишину (4 видеокарты шумят под нагрузкой)
Неочевидные проблемы, о которых молчат в мануалах
Проблема 1: Нагрев памяти на Strix Halo
128GB DDR5-6400 под нагрузкой LLM греются до 70-75°C. Штатного охлаждения недостаточно. Решение - дополнительные радиаторы на планки или активное охлаждение.
Проблема 2: Драйверы ROCm на Strix Halo
Хотите использовать iGPU для частичных вычислений? Готовьтесь к танцам с бубном. ROCm 6.x официально поддерживает Strix Halo, но только с определенными версиями ядра Linux. В Windows вообще не работает.
Проблема 3: Потребление VRAM на DGX Spark
Даже с квантованием Q4_K_M модель занимает 60GB. На конфигурации 4xRTX 5090 (24GB каждая) это 96GB всего, но распределить модель нужно так, чтобы на каждой карте было достаточно памяти под кэш KV. Иначе out-of-memory в самый неподходящий момент.
# Неправильно - оставляем мало памяти под кэш
export CUDA_VISIBLE_DEVICES=0,1,2,3
# Правильно - ограничиваем использование памяти под модель
python -m vllm.entrypoints.openai.api_server \
--model gpt-oss/gpt-oss-120b \
--quantization awq \
--tensor-parallel-size 4 \
--gpu-memory-utilization 0.85 \ # Оставляем 15% под кэш
--max-model-len 8192
Что дальше? GPT-OSS-240B уже на горизонте
Команда разработчиков GPT-OSS анонсировала модель на 240 миллиардов параметров на первый квартал 2026. Она потребует уже 120GB в 4-битном формате. Strix Halo 395 с ее 128GB RAM все еще в игре, но запас по памяти будет минимальным.
DGX Spark с конфигурацией 4xL40S (48GB каждая) или будущие карты с 32GB HBM4 справятся без проблем. Но цена вопроса возрастет.
Мой прогноз: через год мы будем обсуждать не "как запустить 120B модель дома", а "как запустить 400B модель на гибридной системе с частью весов в RAM, части в VRAM". И Strix Halo с ее unified memory архитектурой может оказаться идеальной платформой для такого подхода.
А пока - выбирайте исходя из бюджета и терпения. Strix Halo 395 дает работающий результат за разумные деньги. DGX Spark дает комфорт и скорость за премиум. Оба варианта запускают GPT-OSS-120B. Оба делают это хорошо. Просто по-разному.
Итоговый совет: если это ваш первый опыт с большими локальными моделями - начинайте со Strix Halo. Дешевле, проще, тише. Когда упретесь в ограничения скорости - будете знать, за что платите дополнительные $6500 в DGX Spark.