GPT-OSS-120b на RTX 3090: стоит ли покупать и что ждать в 2026 | AiManual
AiManual Logo Ai / Manual.
07 Янв 2026 Новости

GPT-OSS-120b на двух RTX 3090: гонка за железом или разумная инвестиция?

Практический разбор: запустим ли GPT-OSS-120b на двух RTX 3090 в 2025? Стоит ли инвестировать в железо сейчас или ждать новых моделей? Прогнозы развития LLM до

Реклама
partv2

Запустить 120 миллиардов параметров на двух картах? Серьёзно?

Идея выглядит как технический фетиш. Две RTX 3090, 48 ГБ VRAM в связке через NVLink (если повезёт найти мост), и гигантская модель GPT-OSS-120b. В теории всё сходится. На практике вы столкнётесь с реальностью, которая бьёт по голове сильнее, чем падение цены на видеокарты после анонса нового поколения.

Прямо сейчас, в 2025 году, запустить нативное, неквантованное ядро GPT-OSS-120b на двух RTX 3090 невозможно. Модель требует около 240 ГБ памяти в формате BF16. Даже с агрессивным распределением слоёв и оффлоудом на CPU — это путь в никуда. Скорость инференса будет измеряться минутами на токен.

Так что мы можем сделать на самом деле?

Всё упирается в квантование. Сильно квантование.

  • 4-битное квантование (GPTQ/AWQ): Сжимает модель до ~60 ГБ. Теоретически помещается в 48 ГБ виртуального пространства двух связанных 3090. На практике часть данных уйдёт в оперативку через CUDA Unified Memory, что убьёт скорость. Вы получите работающую модель, но диалог будет напоминать переписку с космонавтом на Луне — с задержкой в несколько секунд на ответ.
  • 3-битное и ниже: Здесь начинается магия (или отчаяние). Модель сожмётся до 45 ГБ и ниже. Она запустится. Но качество ответов для сложных задач — аналитики кода, STEM-рассуждений — просядет заметно. Вы купили Ferrari, но ездите на ней по грунтовой дороге.
  • Инференс по частям с оффлоудом: Загружаем часть слоёв на карты, часть — в системную RAM. Это работает в llama.cpp и подобных инструментах. Скорость? Забудьте о скорости. Это вариант для однократного запуска, чтобы просто сказать «я это сделал».
💡
Если ваша цель — практическая работа с большими моделями (анализ частных документов, RAG), а не технический эксгибиционизм, смотрите в сторону более мелких, но качественных моделей. Llama 3.1 70B в 4-битном формате на двух 3090 чувствует себя гораздо увереннее и даёт осмысленные результаты быстрее.

Инвестировать в две RTX 3090 в 2025 году? Только если...

Рынок б/у 3090 завален. Цены падают. Звонок от здравого смысла.

Сценарий Стоит брать? Альтернатива
Хочу потестить GPT-OSS-120b любой ценой Нет. Арендуйте облако (Lambda, Vast.ai) на день. Аренда инстанса с 2x A100 80GB.
Нужна стабильная платформа для локальных экспериментов с моделями до 70B Да, но ищите карты с гарантией и проверенным NVLink. Одна RTX 4090 24GB + облако для больших задач.
Собираю ферму для инференса или тонкой настройки Скорее нет. Пропускная способность PCIe станет узким местом. Сборка на профессиональных или китайских GPU с большей VRAM.

Главный вопрос не в железе, а в софте. Оптимизации фреймворков (vLLM, TensorRT-LLM) развиваются быстрее, чем мы покупаем карты. Модель, которая сегодня еле дышит, через полгода может запуститься в два раза быстрее благодаря новой версии CUDA или квантованию. Инвестируйте в железо, которое не устареет морально за 12 месяцев.

Что принесут нам 2025-2026? Модели, которые изменят правила

Забудьте про простое увеличение параметров. Будущее за архитектурными хитростями.

1 Модели-«хамелеоны» с динамической структурой

Представьте модель, которая для простого вопроса «какая погода» активирует маленькое, быстрое ядро, а для решения дифференциального уравнения — запускает весь свой 120-миллиардный потенциал. Такие sparse mixture-of-experts (MoE) архитектуры уже есть (как Mixtral), но они станут умнее. Это значит, что даже огромная модель сможет эффективно работать на ограниченном железе, экономно тратя ресурсы.

2 Квантование без потерь (или почти)

Исследователи из MIT и Google уже показывают методы 2-битного квантования с минимальной деградацией качества. К 2026 году 3-битная версия GPT-OSS-120b может по качеству догнать сегодняшнюю 8-битную. А это уже ~45 ГБ. Две RTX 3090 с NVLink будут именно тем, что нужно. Ирония в том, что когда это случится, RTX 3090 будут считать раритетом.

3 Специализированные STEM-монстры

Всеобщие модели типа GPT-OSS — это швейцарский нож. Будущее за скальпелями. Ожидайте взрывной рост open-source моделей, дообученных на гигантских корпусах научных статей, коде и инженерной документации. Они будут меньше (20-40B параметров), но в своей области заткнут за пояс любого гиганта. И что важно — они идеально впишутся в память одной мощной карты следующего поколения.

Прогноз от инсайдеров: к середине 2026 года флагманской open-source моделью для локального запуска станет архитектура на 60-80 миллиардов параметров с продвинутой MoE-структурой. Она будет работать в 4-битном формате на одной видеокарте с 36-48 ГБ VRAM, предлагая качество, сравнимое с сегодняшними 120B моделями. Подробнее в нашем большом прогнозе.

Итог: покупать, ждать или смотреть в сторону облаков?

Если у вас уже есть одна RTX 3090 и горит желание — докупайте вторую. Но только если найдёте её по действительно низкой цене и будете готовы к танцам с бубном вокруг NVLink и квантования. Это инвестиция в хобби, в эксперименты, в понимание того, как всё работает изнутри.

Если вам нужен инструмент для работы здесь и сейчас — смотрите на связку RTX 4090 (для моделей до 34B) + облачные инстансы для тяжёлых задач. Или изучите варианты сборки сервера на специализированных картах.

Если вы планируете на годы вперёд — копите бюджет на новое поколение железа, которое выйдет как раз к расцвету тех самых эффективных моделей 2026 года. RTX 5090 (или её аналог от AMD) с 32+ ГБ памяти и улучшенной поддержкой квантования в железе станет гораздо лучшей инвестицией, чем две устаревающие 3090.

Самое ценное железо — то, которое позволяет вам работать, а не бороться с ним. Иногда лучшая инвестиция — это подписка на облачный сервис и время, сэкономленное на настройке.