Проблема: хочется 70B модель на столе, а не в серверной

Вы сидите за обычным столом. Хотите запустить DeepSeek-V3.2 или GLM-4.7 в полной точности. Но эти монстры требуют 140+ ГБ VRAM. Классическое решение - собрать монстра с 3-4 видеокартами, который гремит как реактивный двигатель и потребляет 1500 ватт. Не вариант для дома. Не вариант для офиса. Не вариант для нормального человека.

Сообщество локальных LLM застряло в парадоксе: либо мощная ферма, которая не влезает в квартиру, либо компромиссы с квантованными моделями. Пока на Reddit не появился пост с гениально простой идеей: Mini PC + внешние GPU через Oculink.

Oculink - это не новый стандарт. Это старый добрый PCIe 4.0 x4, упакованный в компактный разъем. Пропускная способность - 32 Гбит/с в каждую сторону. Достаточно для LLM инференса, где данные передаются пакетами, а не непрерывным потоком.

Решение: гибридная система на Mini PC

Суть в том, чтобы взять компактный, энергоэффективный Mini PC в качестве мозга, а видеопамять вынести наружу. Не через Thunderbolt (слишком медленно), а через Oculink - почти нативная скорость PCIe.

Почему это работает в 2026 году? Потому что современные LLM фреймворки (vLLM, llama.cpp, Ollama) научились эффективно распределять нагрузку между несколькими GPU. Им не нужна сумасшедшая скорость межкарточного обмена - им нужен объем памяти.

1 Выбор сердца системы: Mini PC с Oculink

Герой нашей сборки - AOOSTAR G5. Не самый известный бренд, но именно у него есть то, что нужно: два слота M.2 2280 и поддержка Oculink через адаптер NGFF-Ekey. Альтернативы - Minisforum AI X1 Pro (дороже) или самодельные решения на базе Intel NUC.

Компонент	Модель	Критичные параметры
Mini PC	AOOSTAR G5	2× M.2 2280, поддержка Oculink через адаптер
Процессор	AMD Ryzen 7 7840HS	8 ядер, 65W TDP, встроенная графика
Оперативная память	64 ГБ DDR5	5600 МГц, двухканальный режим
Накопитель	2 ТБ NVMe PCIe 4.0	Для хранения моделей (70B весит ~140 ГБ)

2 Магия Oculink: адаптеры и кабели

Здесь начинается самое интересное. В Mini PC нет штатного Oculink порта. Есть M.2 слот, который использует PCIe линии. Нам нужен адаптер NGFF-Ekey to Oculink.

Внимание: не все адаптеры одинаковы. Китайские no-name варианты часто не работают на полной скорости. Ищите адаптеры с чипом ASM2464PD - они поддерживают PCIe 4.0 x4 без потерь.

Что понадобится:

Адаптер NGFF-Ekey to Oculink (чип ASM2464PD)
Кабель Oculink 50 см (не длиннее! Каждые 10 см - это потери сигнала)
Внешний блок питания для GPU (или два отдельных)
Стойка для видеокарт (самодельная или готовый корпус)

3 Видеокарты: RTX 3090 - королева вторичного рынка

На февраль 2026 года RTX 3090 остается лучшим вариантом по соотношению цена/VRAM. 24 ГБ GDDR6X за $500-600 на вторичном рынке. Нужны две штуки.

Почему не RTX 4090? Дороже в 2-3 раза. Всего 24 ГБ. Да, она быстрее, но для LLM важнее объем памяти, а не TFLOPS. Почему не профессиональные карты? A100 стоит как автомобиль. RTX 6000 Ada - тоже.

Берем две б/у RTX 3090. Проверяем:

Температуры памяти (горячая точка - память GDDR6X)
Отсутствие артефактов в стресс-тесте
Возможность разгона памяти (для LLM это дает +5-10% производительности)

Сборка: от теории к практике

Собираем на столе. Без корпуса. Сначала тестируем, потом думаем об эстетике.

Шаг 1: Подготовка Mini PC

Разбираем AOOSTAR G5. Находим второй M.2 слот (обычно под SSD). Устанавливаем адаптер NGFF-Ekey. Фиксируем винтом. Не забываем про термопрокладку - чип ASM2464PD греется.

Шаг 2: Подключение Oculink

Кабель Oculink подключаем к адаптеру. Второй конец - к внешнему хабу или напрямую к первой видеокарте. Да, через один кабель Oculink можно подключить несколько карт, но нужен специальный хаб (редкость).

💡

Если нужно больше двух карт, используйте два адаптера NGFF-Ekey в оба M.2 слота. Получите два независимых Oculink подключения. Но проверьте, что процессор поддерживает столько PCIe линий.

Шаг 3: Питание GPU

Самая опасная часть. Две RTX 3090 под нагрузкой потребляют 700+ ватт. Нужен блок питания на 1000W минимум. Лучше - два по 600W, каждый на свою карту.

Используйте кабели-удлинители 12VHPWR, если у карт новый разъем. Старые 8-pin тоже подойдут, но следите за нагрузкой на каждый кабель.

Шаг 4: Первый запуск

Включаем Mini PC. Заходим в BIOS. Видим странную картину: система определяет адаптер как PCIe устройство. Иногда нужно включить в настройках "Above 4G Decoding" и "Resizable BAR".

Загружаемся в Linux (Ubuntu 24.04 LTS или свежий дистрибутив с ядром 6.10+). Устанавливаем драйвера NVIDIA 560.x или новее.

# Проверяем, что карты видны
nvidia-smi

# Должно показать две RTX 3090
# Если видна только одна - проблема с Oculink

Тестирование: цифры не врут

Оригинальная сборка на Reddit показала 145 токенов/секунду на модели Llama 3.1 70B в формате Q4_K_M. Это очень достойный результат для системы, которая потребляет 350 ватт в простое и 800 под нагрузкой.

Модель	Формат	Скорость (t/s)	Загрузка VRAM
Llama 3.1 70B	Q4_K_M	145	62 ГБ / 68 ГБ
DeepSeek-V3.2 67B	Q5_K_M	112	65 ГБ / 68 ГБ
GLM-4.7 120B	Q3_K_XL	78	67 ГБ / 68 ГБ

Сравните с классической сборкой на 3× RTX 3090, которая потребляет 1200 ватт и выдает 180 t/s. Наш вариант на 30% медленнее, но в 1.5 раза энергоэффективнее.

Подводные камни: что может пойти не так

Проблема 1: Нестабильность Oculink

Кабель длиннее 50 см - начинаются потери. Плохой адаптер - PCIe 2.0 вместо 4.0. Решение: покупать проверенные комплектующие, тестировать перед сборкой.

Проблема 2: Перегрев в Mini PC

Адаптер NGFF-Ekey греется. Процессор в компактном корпусе тоже. Решение: добавить маленький вентилятор над адаптером. Использовать термопрокладки.

Проблема 3: Драйвера и совместимость

Новые версии драйверов NVIDIA иногда ломают работу через Oculink. Решение: не обновляться сразу. Ждать отзывов сообщества. Использовать LTS версии дистрибутивов.

Самый частый вопрос: а зачем все это, если есть облака? Ответ: конфиденциальность. Полный контроль. Нет лимитов на запросы. И главное - когда вы платите за облако, вы арендуете. Здесь вы владеете.

Альтернативы и развитие концепции

Что делать, если хочется больше VRAM? Добавить третью RTX 3090 через второй адаптер Oculink. Или заменить одну 3090 на RTX 4090 с 24 ГБ (дорого). Или ждать, когда на вторичный рынок хлынут RTX 5090 с 32 ГБ (скоро).

Интересный вариант - использовать не RTX 3090, а две RTX 3080 Ti с 12 ГБ. Дешевле, но всего 24 ГБ в сумме. Хватит для 34B моделей, но не для 70B.

Если ваш бюджет скромнее, посмотрите нашу статью про запуск LLM на 10 ГБ VRAM. Там другой подход - квантование и оптимизация.

Стоит ли игра свеч?

Давайте посчитаем. Mini PC AOOSTAR G5 - $600. Две б/у RTX 3090 - $1200. Адаптеры, кабели, блок питания - $300. Итого: $2100.

За эти деньги вы получаете систему, которая:

Запускает 70B модели с комфортной скоростью
Потребляет как два утюга, а не как цех
Помещается на столе (если убрать видеокарты под стол)
Полностью ваша - никаких подписок, никаких ограничений

Сравните с арендой A100 80GB на облаке: $4/час. За 2100 часов (3 месяца непрерывной работы) вы окупаете сборку. А она прослужит года три.

Главное - эта сборка доказывает: для локальных LLM не нужны серверные стойки. Нужны смекалка и правильные компоненты. Сообщество на Reddit это поняло. Пора и вам.

P.S. Если собираете такую систему - сфотографируйте процесс. Выложите на Reddit в r/LocalLLaMA. Сообщество оценит. И, возможно, подскажет, как улучшить.

Как собрать Mini PC с 68 ГБ VRAM для локальных LLM: разбор уникальной сборки на Reddit