Можно ли запустить GPT-OSS-120b на двух RTX 3090 в 2025 году?

Запустить нативную, неквантованную версию модели невозможно — требуется ~240 ГБ памяти. Только с агрессивным квантованием (3-4 бита) и с серьёзными компромиссами в скорости и качестве.

Стоит ли покупать две RTX 3090 для локальных LLM в 2025?

Только если вы находите карты по очень низкой цене для экспериментов и готовы разбираться с NVLink. Для стабильной работы с моделями до 70B это вариант, но для будущих больших моделей это не лучшая долгосрочная инвестиция.

Какие модели ожидать к 2026 году для локального запуска?

Ожидаются эффективные модели на 60-80B параметров с архитектурой Mixture-of-Experts (MoE), улучшенные методы квантования (2-3 бита без сильных потерь) и узкоспециализированные STEM-модели на 20-40B параметров, оптимизированные под ограниченную VRAM.

GPT-OSS-120b на RTX 3090: стоит ли покупать и что ждать в 2026

Запустить 120 миллиардов параметров на двух картах? Серьёзно?

Идея выглядит как технический фетиш. Две RTX 3090, 48 ГБ VRAM в связке через NVLink (если повезёт найти мост), и гигантская модель GPT-OSS-120b. В теории всё сходится. На практике вы столкнётесь с реальностью, которая бьёт по голове сильнее, чем падение цены на видеокарты после анонса нового поколения.

Прямо сейчас, в 2025 году, запустить нативное, неквантованное ядро GPT-OSS-120b на двух RTX 3090 невозможно. Модель требует около 240 ГБ памяти в формате BF16. Даже с агрессивным распределением слоёв и оффлоудом на CPU — это путь в никуда. Скорость инференса будет измеряться минутами на токен.

Так что мы можем сделать на самом деле?

Всё упирается в квантование. Сильно квантование.

4-битное квантование (GPTQ/AWQ): Сжимает модель до ~60 ГБ. Теоретически помещается в 48 ГБ виртуального пространства двух связанных 3090. На практике часть данных уйдёт в оперативку через CUDA Unified Memory, что убьёт скорость. Вы получите работающую модель, но диалог будет напоминать переписку с космонавтом на Луне — с задержкой в несколько секунд на ответ.
3-битное и ниже: Здесь начинается магия (или отчаяние). Модель сожмётся до 45 ГБ и ниже. Она запустится. Но качество ответов для сложных задач — аналитики кода, STEM-рассуждений — просядет заметно. Вы купили Ferrari, но ездите на ней по грунтовой дороге.
Инференс по частям с оффлоудом: Загружаем часть слоёв на карты, часть — в системную RAM. Это работает в llama.cpp и подобных инструментах. Скорость? Забудьте о скорости. Это вариант для однократного запуска, чтобы просто сказать «я это сделал».

💡

Если ваша цель — практическая работа с большими моделями (анализ частных документов, RAG), а не технический эксгибиционизм, смотрите в сторону более мелких, но качественных моделей. Llama 3.1 70B в 4-битном формате на двух 3090 чувствует себя гораздо увереннее и даёт осмысленные результаты быстрее.

Инвестировать в две RTX 3090 в 2025 году? Только если...

Рынок б/у 3090 завален. Цены падают. Звонок от здравого смысла.

Сценарий	Стоит брать?	Альтернатива
Хочу потестить GPT-OSS-120b любой ценой	Нет. Арендуйте облако (Lambda, Vast.ai) на день.	Аренда инстанса с 2x A100 80GB.
Нужна стабильная платформа для локальных экспериментов с моделями до 70B	Да, но ищите карты с гарантией и проверенным NVLink.	Одна RTX 4090 24GB + облако для больших задач.
Собираю ферму для инференса или тонкой настройки	Скорее нет. Пропускная способность PCIe станет узким местом.	Сборка на профессиональных или китайских GPU с большей VRAM.

Главный вопрос не в железе, а в софте. Оптимизации фреймворков (vLLM, TensorRT-LLM) развиваются быстрее, чем мы покупаем карты. Модель, которая сегодня еле дышит, через полгода может запуститься в два раза быстрее благодаря новой версии CUDA или квантованию. Инвестируйте в железо, которое не устареет морально за 12 месяцев.

Что принесут нам 2025-2026? Модели, которые изменят правила

Забудьте про простое увеличение параметров. Будущее за архитектурными хитростями.

1 Модели-«хамелеоны» с динамической структурой

Представьте модель, которая для простого вопроса «какая погода» активирует маленькое, быстрое ядро, а для решения дифференциального уравнения — запускает весь свой 120-миллиардный потенциал. Такие sparse mixture-of-experts (MoE) архитектуры уже есть (как Mixtral), но они станут умнее. Это значит, что даже огромная модель сможет эффективно работать на ограниченном железе, экономно тратя ресурсы.

2 Квантование без потерь (или почти)

Исследователи из MIT и Google уже показывают методы 2-битного квантования с минимальной деградацией качества. К 2026 году 3-битная версия GPT-OSS-120b может по качеству догнать сегодняшнюю 8-битную. А это уже ~45 ГБ. Две RTX 3090 с NVLink будут именно тем, что нужно. Ирония в том, что когда это случится, RTX 3090 будут считать раритетом.

3 Специализированные STEM-монстры

Всеобщие модели типа GPT-OSS — это швейцарский нож. Будущее за скальпелями. Ожидайте взрывной рост open-source моделей, дообученных на гигантских корпусах научных статей, коде и инженерной документации. Они будут меньше (20-40B параметров), но в своей области заткнут за пояс любого гиганта. И что важно — они идеально впишутся в память одной мощной карты следующего поколения.

Прогноз от инсайдеров: к середине 2026 года флагманской open-source моделью для локального запуска станет архитектура на 60-80 миллиардов параметров с продвинутой MoE-структурой. Она будет работать в 4-битном формате на одной видеокарте с 36-48 ГБ VRAM, предлагая качество, сравнимое с сегодняшними 120B моделями. Подробнее в нашем большом прогнозе.

Итог: покупать, ждать или смотреть в сторону облаков?

Если у вас уже есть одна RTX 3090 и горит желание — докупайте вторую. Но только если найдёте её по действительно низкой цене и будете готовы к танцам с бубном вокруг NVLink и квантования. Это инвестиция в хобби, в эксперименты, в понимание того, как всё работает изнутри.

Если вам нужен инструмент для работы здесь и сейчас — смотрите на связку RTX 4090 (для моделей до 34B) + облачные инстансы для тяжёлых задач. Или изучите варианты сборки сервера на специализированных картах.

Если вы планируете на годы вперёд — копите бюджет на новое поколение железа, которое выйдет как раз к расцвету тех самых эффективных моделей 2026 года. RTX 5090 (или её аналог от AMD) с 32+ ГБ памяти и улучшенной поддержкой квантования в железе станет гораздо лучшей инвестицией, чем две устаревающие 3090.

Самое ценное железо — то, которое позволяет вам работать, а не бороться с ним. Иногда лучшая инвестиция — это подписка на облачный сервис и время, сэкономленное на настройке.

GPT-OSS-120b на двух RTX 3090: гонка за железом или разумная инвестиция?