Проблема: хочется 70B модель на столе, а не в серверной
Вы сидите за обычным столом. Хотите запустить DeepSeek-V3.2 или GLM-4.7 в полной точности. Но эти монстры требуют 140+ ГБ VRAM. Классическое решение - собрать монстра с 3-4 видеокартами, который гремит как реактивный двигатель и потребляет 1500 ватт. Не вариант для дома. Не вариант для офиса. Не вариант для нормального человека.
Сообщество локальных LLM застряло в парадоксе: либо мощная ферма, которая не влезает в квартиру, либо компромиссы с квантованными моделями. Пока на Reddit не появился пост с гениально простой идеей: Mini PC + внешние GPU через Oculink.
Oculink - это не новый стандарт. Это старый добрый PCIe 4.0 x4, упакованный в компактный разъем. Пропускная способность - 32 Гбит/с в каждую сторону. Достаточно для LLM инференса, где данные передаются пакетами, а не непрерывным потоком.
Решение: гибридная система на Mini PC
Суть в том, чтобы взять компактный, энергоэффективный Mini PC в качестве мозга, а видеопамять вынести наружу. Не через Thunderbolt (слишком медленно), а через Oculink - почти нативная скорость PCIe.
Почему это работает в 2026 году? Потому что современные LLM фреймворки (vLLM, llama.cpp, Ollama) научились эффективно распределять нагрузку между несколькими GPU. Им не нужна сумасшедшая скорость межкарточного обмена - им нужен объем памяти.
1 Выбор сердца системы: Mini PC с Oculink
Герой нашей сборки - AOOSTAR G5. Не самый известный бренд, но именно у него есть то, что нужно: два слота M.2 2280 и поддержка Oculink через адаптер NGFF-Ekey. Альтернативы - Minisforum AI X1 Pro (дороже) или самодельные решения на базе Intel NUC.
| Компонент | Модель | Критичные параметры |
|---|---|---|
| Mini PC | AOOSTAR G5 | 2× M.2 2280, поддержка Oculink через адаптер |
| Процессор | AMD Ryzen 7 7840HS | 8 ядер, 65W TDP, встроенная графика |
| Оперативная память | 64 ГБ DDR5 | 5600 МГц, двухканальный режим |
| Накопитель | 2 ТБ NVMe PCIe 4.0 | Для хранения моделей (70B весит ~140 ГБ) |
2 Магия Oculink: адаптеры и кабели
Здесь начинается самое интересное. В Mini PC нет штатного Oculink порта. Есть M.2 слот, который использует PCIe линии. Нам нужен адаптер NGFF-Ekey to Oculink.
Внимание: не все адаптеры одинаковы. Китайские no-name варианты часто не работают на полной скорости. Ищите адаптеры с чипом ASM2464PD - они поддерживают PCIe 4.0 x4 без потерь.
Что понадобится:
- Адаптер NGFF-Ekey to Oculink (чип ASM2464PD)
- Кабель Oculink 50 см (не длиннее! Каждые 10 см - это потери сигнала)
- Внешний блок питания для GPU (или два отдельных)
- Стойка для видеокарт (самодельная или готовый корпус)
3 Видеокарты: RTX 3090 - королева вторичного рынка
На февраль 2026 года RTX 3090 остается лучшим вариантом по соотношению цена/VRAM. 24 ГБ GDDR6X за $500-600 на вторичном рынке. Нужны две штуки.
Почему не RTX 4090? Дороже в 2-3 раза. Всего 24 ГБ. Да, она быстрее, но для LLM важнее объем памяти, а не TFLOPS. Почему не профессиональные карты? A100 стоит как автомобиль. RTX 6000 Ada - тоже.
Берем две б/у RTX 3090. Проверяем:
- Температуры памяти (горячая точка - память GDDR6X)
- Отсутствие артефактов в стресс-тесте
- Возможность разгона памяти (для LLM это дает +5-10% производительности)
Сборка: от теории к практике
Собираем на столе. Без корпуса. Сначала тестируем, потом думаем об эстетике.
Шаг 1: Подготовка Mini PC
Разбираем AOOSTAR G5. Находим второй M.2 слот (обычно под SSD). Устанавливаем адаптер NGFF-Ekey. Фиксируем винтом. Не забываем про термопрокладку - чип ASM2464PD греется.
Шаг 2: Подключение Oculink
Кабель Oculink подключаем к адаптеру. Второй конец - к внешнему хабу или напрямую к первой видеокарте. Да, через один кабель Oculink можно подключить несколько карт, но нужен специальный хаб (редкость).
Шаг 3: Питание GPU
Самая опасная часть. Две RTX 3090 под нагрузкой потребляют 700+ ватт. Нужен блок питания на 1000W минимум. Лучше - два по 600W, каждый на свою карту.
Используйте кабели-удлинители 12VHPWR, если у карт новый разъем. Старые 8-pin тоже подойдут, но следите за нагрузкой на каждый кабель.
Шаг 4: Первый запуск
Включаем Mini PC. Заходим в BIOS. Видим странную картину: система определяет адаптер как PCIe устройство. Иногда нужно включить в настройках "Above 4G Decoding" и "Resizable BAR".
Загружаемся в Linux (Ubuntu 24.04 LTS или свежий дистрибутив с ядром 6.10+). Устанавливаем драйвера NVIDIA 560.x или новее.
# Проверяем, что карты видны
nvidia-smi
# Должно показать две RTX 3090
# Если видна только одна - проблема с Oculink
Тестирование: цифры не врут
Оригинальная сборка на Reddit показала 145 токенов/секунду на модели Llama 3.1 70B в формате Q4_K_M. Это очень достойный результат для системы, которая потребляет 350 ватт в простое и 800 под нагрузкой.
| Модель | Формат | Скорость (t/s) | Загрузка VRAM |
|---|---|---|---|
| Llama 3.1 70B | Q4_K_M | 145 | 62 ГБ / 68 ГБ |
| DeepSeek-V3.2 67B | Q5_K_M | 112 | 65 ГБ / 68 ГБ |
| GLM-4.7 120B | Q3_K_XL | 78 | 67 ГБ / 68 ГБ |
Сравните с классической сборкой на 3× RTX 3090, которая потребляет 1200 ватт и выдает 180 t/s. Наш вариант на 30% медленнее, но в 1.5 раза энергоэффективнее.
Подводные камни: что может пойти не так
Проблема 1: Нестабильность Oculink
Кабель длиннее 50 см - начинаются потери. Плохой адаптер - PCIe 2.0 вместо 4.0. Решение: покупать проверенные комплектующие, тестировать перед сборкой.
Проблема 2: Перегрев в Mini PC
Адаптер NGFF-Ekey греется. Процессор в компактном корпусе тоже. Решение: добавить маленький вентилятор над адаптером. Использовать термопрокладки.
Проблема 3: Драйвера и совместимость
Новые версии драйверов NVIDIA иногда ломают работу через Oculink. Решение: не обновляться сразу. Ждать отзывов сообщества. Использовать LTS версии дистрибутивов.
Самый частый вопрос: а зачем все это, если есть облака? Ответ: конфиденциальность. Полный контроль. Нет лимитов на запросы. И главное - когда вы платите за облако, вы арендуете. Здесь вы владеете.
Альтернативы и развитие концепции
Что делать, если хочется больше VRAM? Добавить третью RTX 3090 через второй адаптер Oculink. Или заменить одну 3090 на RTX 4090 с 24 ГБ (дорого). Или ждать, когда на вторичный рынок хлынут RTX 5090 с 32 ГБ (скоро).
Интересный вариант - использовать не RTX 3090, а две RTX 3080 Ti с 12 ГБ. Дешевле, но всего 24 ГБ в сумме. Хватит для 34B моделей, но не для 70B.
Если ваш бюджет скромнее, посмотрите нашу статью про запуск LLM на 10 ГБ VRAM. Там другой подход - квантование и оптимизация.
Стоит ли игра свеч?
Давайте посчитаем. Mini PC AOOSTAR G5 - $600. Две б/у RTX 3090 - $1200. Адаптеры, кабели, блок питания - $300. Итого: $2100.
За эти деньги вы получаете систему, которая:
- Запускает 70B модели с комфортной скоростью
- Потребляет как два утюга, а не как цех
- Помещается на столе (если убрать видеокарты под стол)
- Полностью ваша - никаких подписок, никаких ограничений
Сравните с арендой A100 80GB на облаке: $4/час. За 2100 часов (3 месяца непрерывной работы) вы окупаете сборку. А она прослужит года три.
Главное - эта сборка доказывает: для локальных LLM не нужны серверные стойки. Нужны смекалка и правильные компоненты. Сообщество на Reddit это поняло. Пора и вам.
P.S. Если собираете такую систему - сфотографируйте процесс. Выложите на Reddit в r/LocalLLaMA. Сообщество оценит. И, возможно, подскажет, как улучшить.