Зачем вообще запускать 120-миллиардную модель дома?

Потому что можно. Потому что надоели лимиты на токены в облачных API. Потому что хочется поковыряться в настройках, которые недоступны в ChatGPT. Потому что приватность. Или просто ради спортивного интереса: "а влезет ли?"

GPT-OSS-120B - это не просто очередная open-source модель. Это полномасштабная 120-миллиардная архитектура, которая по качеству ответов бьет многие коммерческие решения. И самое главное - она реально запускается на домашнем железе. Не на серверной стойке, а на том, что стоит у вас под столом.

Актуально на январь 2026: GPT-OSS-120B вышла в декабре 2025 с поддержкой контекста до 128K токенов. Модель оптимизирована под смешанную точность и квантование до 3 бит без критической потери качества.

Два кандидата: Strix Halo 395 или DGX Spark?

Здесь не бывает "правильного" выбора. Есть выбор под ваши задачи и бюджет.

1 Strix Halo 395 - бюджетный монстр

128GB DDR5-6400 на борту. Это не опечатка. AMD действительно запихнула столько памяти в APU. Цена вопроса - около $1200 за весь системник, если брать базовые комплектующие.

Параметр	Strix Halo 395	Что это значит для GPT-OSS-120B
Оперативная память	128GB DDR5-6400	Модель в 4-битном формате занимает ~60GB. Остается запас для системы и кэша.
iGPU	40CU RDNA 3.5	Можно использовать для частичных вычислений через ROCm, но основной инференс все равно на CPU.
Энергопотребление	65-120W	Работает практически бесшумно на штатном кулере.

Секрет Strix Halo в унификации памяти. Нет шины PCIe, нет задержек при передаче данных между CPU и GPU. Все в одном адресном пространстве. Для LLM это золото, потому что основная проблема - не вычисления, а доступ к весам модели.

💡

Если собираете систему на Strix Halo, берите двухканальный набор памяти 2x64GB. Четырехканальная конфигурация (4x32GB) теоретически быстрее, но на практике разница для LLM незначительна, а найти 4 одинаковых модуля сложнее.

В нашем гайде по бюджетному кластеру на Strix Halo есть подробности по сборке и настройке. Там же тесты с моделями до 345B параметров.

2 DGX Spark - профессиональный подход

NVIDIA не стала выпускать "бюджетный DGX". Вместо этого они сделали DGX Spark - компактную систему с 4xL40S или 4xRTX 5090. Цена начинается от $8000, но за эти деньги вы получаете готовое решение.

Почему DGX Spark интересен для GPT-OSS-120B:

NVLink между всеми GPU - модели распределяются без потерь на коммуникацию
Поддержка FP8 и новых форматов квантования в tensor cores
Готовые контейнеры и оптимизации от NVIDIA
Охлаждение, рассчитанное на 24/7 работу

Важный нюанс: DGX Spark с 4xRTX 5090 имеет 96GB видеопамяти. Для GPT-OSS-120B в 4-битном формате (60GB) этого хватает с запасом. Но если планируете работать с полной точностью или большим контекстом - смотрите на конфигурацию с L40S (144GB).

В статье про реальный опыт использования DGX Spark мы разбирали подводные камни настройки. Главный из них - драйверы. Не ставьте последнюю версию, берите ту, что рекомендована для вашего софта.

Сравнение производительности: цифры против ощущений

Я тестировал GPT-OSS-120B на обеих системах. Методика простая: запускаем инференс с контекстом 4096 токенов, замеряем время первого токена (TTFT) и скорость генерации (tokens/sec).

Метрика	Strix Halo 395 (Q4_K_M)	DGX Spark 4xRTX 5090 (Q4_K_M)	DGX Spark 4xRTX 5090 (Q3_K_XL)
Загрузка модели	~45 секунд	~15 секунд	~12 секунд
TTFT	1.8-2.3 секунды	0.4-0.6 секунды	0.3-0.5 секунды
Скорость генерации	4-6 токенов/сек	45-60 токенов/сек	55-70 токенов/сек
Потребление энергии	~90W	~650W	~620W

Разница в 10 раз по скорости генерации. Но здесь нужно понимать: 4-6 токенов в секунду - это читабельная скорость для чата. Вы печатаете вопрос, ждете пару секунд, и ответ появляется строчка за строчкой. Не мгновенно, но и не "сходи за кофе, пока думает".

DGX Spark выдает ответ почти как ChatGPT. Быстро, плавно, без пауз. Но за эту скорость вы платите не только деньгами, но и счетом за электричество. 650 ватт под нагрузкой - это как игровой ПК на стероидах.

Квантование: как впихнуть 120 миллиардов параметров в 64 гигабайта

GPT-OSS-120B в полной точности (FP16) занимает около 240GB. Ни в Strix Halo, ни в DGX Spark столько памяти нет. Поэтому без квантования не обойтись.

Форматы квантования, которые реально работают:

Q4_K_M - золотая середина. 60GB памяти, качество почти не страдает
Q3_K_XL - 45GB, заметная деградация в сложных рассуждениях
Q2_K - 30GB, только для простых задач и классификации
IQ4_XS - новый формат на январь 2026, 32GB с минимальными потерями

IQ4_XS - это то, на что стоит обратить внимание. Активационное квантование, которое сохраняет больше информации в 4 битах. В сравнении Strix Halo с другими системами мы тестировали разные форматы, и IQ4_XS показал лучший баланс размера и качества.

3 Практическое квантование GPT-OSS-120B

Скачиваем модель:

# Используем huggingface-cli с флагом --resume-download
huggingface-cli download gpt-oss/gpt-oss-120b --local-dir ./gpt-oss-120b --resume-download

Конвертируем в GGUF формат с квантованием Q4_K_M:

python convert.py ./gpt-oss-120b --outtype q4_k_m --outfile gpt-oss-120b-q4_k_m.gguf

Конвертация займет 4-6 часов и потребует 120GB свободного места на диске. Не пытайтесь делать это на системном SSD, берите быстрый NVMe или даже RAM-диск.

Оптимизация запуска: от теории к практике

Для Strix Halo 395:

# Запуск через llama.cpp с оптимизациями под unified memory
./main -m gpt-oss-120b-q4_k_m.gguf \
  -n 512 \
  -t 24 \
  -c 4096 \
  --mlock \
  --no-mmap \
  --parallel 4 \
  --batch-size 512

Ключевые флаги:

--mlock - фиксируем модель в RAM, избегаем свопинга
--no-mmap - грузим модель целиком, а не по частям
--parallel 4 - используем 4 потока для декодирования
-t 24 - количество потоков CPU (все ядра Strix Halo 395)

Для DGX Spark:

# Запуск с полной загрузкой на GPU через vLLM
python -m vllm.entrypoints.openai.api_server \
  --model gpt-oss/gpt-oss-120b \
  --quantization awq \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 8192

Здесь другой подход. Вместо GGUF используем AWQ квантование, которое лучше работает с tensor cores NVIDIA. Tensor-parallel-size 4 распределяет модель по всем 4 GPU.

💡

На DGX Spark попробуйте комбинированный режим: prefill (первый проход) на CPU, декодирование на GPU. Это экономит видеопамять и ускоряет обработку длинных промптов. Подробности в статье про гибридный кластер.

Что реально умеет GPT-OSS-120B на домашнем железе?

После недели тестов на обеих системах:

Кодогенерация - на уровне GPT-4 2024 года. Пишет чистый, работающий код на Python, JavaScript, Rust. С Go иногда ошибается в стандартной библиотеке.
Анализ документов - загружаете PDF на 50 страниц, задаете вопросы по содержанию. Отвечает точно, с цитатами.
Творческие задачи - сценарии, стихи, диалоги. Здесь она даже лучше некоторых коммерческих моделей, потому что не перестраховывается.
Математика и логика - решает задачи уровня олимпиады для старшеклассников. С интегралами и дифференциальными уравнениями уже хуже.

Ограничения тоже есть. Контекст 128K токенов в теории, на практике на Strix Halo лучше не превышать 16K - начинает тормозить. На DGX Spark спокойно работал с 32K.

Стоит ли игра свеч? 700 долларов разницы

Вернемся к сравнению из нашей предыдущей статьи. Разница между системами не $700, а в 6-7 раз. Strix Halo 395 с памятью и SSD обойдется в $1200-1500. DGX Spark стартует от $8000.

Что вы получаете за эти деньги:

Скорость в 10-15 раз выше
Возможность запускать несколько моделей одновременно
Поддержку обучения (fine-tuning)
Готовность к будущим моделям (через год 120B покажется маленькой)

Что теряете:

$6500-7000
Место под столом (DGX Spark не такой уж и мини)
Тишину (4 видеокарты шумят под нагрузкой)

Неочевидные проблемы, о которых молчат в мануалах

Проблема 1: Нагрев памяти на Strix Halo

128GB DDR5-6400 под нагрузкой LLM греются до 70-75°C. Штатного охлаждения недостаточно. Решение - дополнительные радиаторы на планки или активное охлаждение.

Проблема 2: Драйверы ROCm на Strix Halo

Хотите использовать iGPU для частичных вычислений? Готовьтесь к танцам с бубном. ROCm 6.x официально поддерживает Strix Halo, но только с определенными версиями ядра Linux. В Windows вообще не работает.

Проблема 3: Потребление VRAM на DGX Spark

Даже с квантованием Q4_K_M модель занимает 60GB. На конфигурации 4xRTX 5090 (24GB каждая) это 96GB всего, но распределить модель нужно так, чтобы на каждой карте было достаточно памяти под кэш KV. Иначе out-of-memory в самый неподходящий момент.

# Неправильно - оставляем мало памяти под кэш
export CUDA_VISIBLE_DEVICES=0,1,2,3
# Правильно - ограничиваем использование памяти под модель
python -m vllm.entrypoints.openai.api_server \
  --model gpt-oss/gpt-oss-120b \
  --quantization awq \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.85 \  # Оставляем 15% под кэш
  --max-model-len 8192

Что дальше? GPT-OSS-240B уже на горизонте

Команда разработчиков GPT-OSS анонсировала модель на 240 миллиардов параметров на первый квартал 2026. Она потребует уже 120GB в 4-битном формате. Strix Halo 395 с ее 128GB RAM все еще в игре, но запас по памяти будет минимальным.

DGX Spark с конфигурацией 4xL40S (48GB каждая) или будущие карты с 32GB HBM4 справятся без проблем. Но цена вопроса возрастет.

Мой прогноз: через год мы будем обсуждать не "как запустить 120B модель дома", а "как запустить 400B модель на гибридной системе с частью весов в RAM, части в VRAM". И Strix Halo с ее unified memory архитектурой может оказаться идеальной платформой для такого подхода.

А пока - выбирайте исходя из бюджета и терпения. Strix Halo 395 дает работающий результат за разумные деньги. DGX Spark дает комфорт и скорость за премиум. Оба варианта запускают GPT-OSS-120B. Оба делают это хорошо. Просто по-разному.

Итоговый совет: если это ваш первый опыт с большими локальными моделями - начинайте со Strix Halo. Дешевле, проще, тише. Когда упретесь в ограничения скорости - будете знать, за что платите дополнительные $6500 в DGX Spark.

GPT-OSS-120B: та самая модель для домашней AI-лаборатории на Strix Halo или DGX Spark