Сборка портативной AI-станции для LLM инференса | Гайд 2026 | AiManual
AiManual Logo Ai / Manual.
23 Фев 2026 Гайд

Как собрать портативную рабочую станцию для AI-инференса: компоненты, тонкая настройка и бенчмарки

Полное руководство по сборке портативной рабочей станции для AI-инференса. Выбор железа, андервольтинг GPU, настройка RAM, бенчмарки для GPT-OSS 120B. Актуально

Зачем таскать с собой целый сервер? Потому что можно

Представьте: вам нужно показать заказчику работу fine-tuned модели GPT-OSS 120B, но демо в облаке — это скучно и требует стабильного интернета. Или вы исследователь, и вам нужно запустить инференс на свежих данных прямо в поле. Арендовать облачный инстанс с A100 на неделю? Дорого. Тащить с собой полноразмерный tower? Смешно.

Решение — портативная рабочая станция, которая умещается в рюкзак, но при этом не уступает по мощности некоторым стоечным серверам. Мы говорим о системе, способной запускать квантованные версии 70B-120B параметрических моделей с приемлемой скоростью. И да, это реально собрать даже в 2026 году, несмотря на вечный голод на VRAM.

ℹ️
Вся информация в этом гайде актуальна на 23 февраля 2026 года. Мы используем компоненты, которые либо уже есть на рынке, либо их анонс — вопрос ближайших месяцев. Это не фантастика, а инженерная реальность.

Кирпичики для нашего монстра: что покупать и почему

Сборка портативной станции — это искусство компромисса между производительностью, тепловыделением и объемом. Ошибешься с одним компонентом — и вместо тихого помощника получится пылающий чемодан.

1Сердце системы: выбор GPU

Здесь все просто: нужно максимум VRAM в форм-факторе, который влезет в корпус. На момент написания, лучший баланс для портативной сборки — это NVIDIA RTX 6000 Ada Generation (48 ГБ GDDR6 с ECC). Альтернатива — ждать RTX 5090 (если слухи о 32-48 ГБ верятся), но профессиональные карты часто имеют лучшие драйверы для вычислений и более предсказуемое TDP.

Почему не берем четыре б/у RTX 3090? Потому что наш корпус — не грузовик. Нам нужна одна мощная карта. VRAM в 48 ГБ позволяет загружать 4-битные квантованные версии моделей типа GPT-OSS 120B, оставляя место для контекста.

Компонент Конкретная модель (пример) Критически важная характеристика
Корпус FormD T1 V3.0 (Sandwich) Объем ~10л, поддержка 3-слотовых GPU до 322мм
GPU NVIDIA RTX 6000 Ada Generation 48 ГБ VRAM, TDP 300W (но настраивается)
Процессор AMD Ryzen 9 7950X3D Низкое энергопотребление в ненагруженных ядрах, кэш 3D V-Cache
Материнская плата ASUS ROG STRIX X670E-I GAMING WIFI Mini-ITX, 2 слота DDR5, PCIe 5.0 x16
Оперативная память G.Skill Trident Z5 Neo RGB 64 ГБ (2x32 ГБ) DDR5-6000 CL30 Низкие тайминги (CL30) для снижения задержек CPU-GPU
Блок питания Corsair SF1000L 1000W Platinum Форм-фактор SFX-L, достаточно мощности для пиков GPU
Накопитель Samsung 990 PRO 4 ТБ M.2 NVMe Скорость для быстрой загрузки весов моделей (до 20 ГБ)
Охлаждение CPU Noctua NH-L12S Низкопрофильный кулер, эффективный в стесненных условиях

2Собираем пазл: монтаж в FormD T1

FormD T1 — это красота и боль. Сборка требует терпения. Основная последовательность:

  1. Сначала установите блок питания и проложите основные кабели (24-pin, CPU). Используйте кастомные кабели нужной длины — штатные всегда длиннее.
  2. Закрепите материнскую плату с установленными процессором, кулером и RAM. Убедитесь, что низкий профиль кулера не конфликтует с радиаторами на плате.
  3. Аккуратно установите GPU через riser-кабель. Это самый нервный момент — карта тяжелая и должна идеально встать в паз на противоположной стороне корпуса.
  4. Управление воздухом: настройте вентиляторы так, чтобы холодный воздух заходил снизу и сбоку, а горячий выходил вверх. Для GPU в сэндвич-конфигурации часто эффективен negative pressure (вытяжка мощнее, чем нагнетание).

Не пытайтесь использовать AIO (водянку) для процессора в этой сборке. В FormD T1 с 3-слотовой конфигурацией под GPU места для радиатора просто нет. Низкопрофильный воздушный кулер — ваш единственный друг.

Включаем и настраиваем: от BIOS до первых токенов

Сборка — это только полдела. Теперь нужно заставить эту компактную систему работать стабильно и быстро.

3BIOS: включаем нужные флаги

Заходим в UEFI (обычно Del или F2 при загрузке). Критически важные настройки:

  • Resizable BAR / Above 4G Decoding: Включаем обязательно. Это позволяет процессору получать прямой доступ ко всей VRAM GPU, что ускоряет обмен данными для больших моделей.
  • Настройка оперативной памяти: Активируем EXPO (для AMD) или XMP (для Intel) профиль для заявленных частот (например, DDR5-6000). Но не останавливаемся на этом.

Переходим к ручным таймингам. Для DDR5 CL30-36-36-76 (основные) можно попробовать поджать вторичные тайминги, например, tRFC. Снижение с 560 до 500 может дать прирост в 1-3% в пропускной способности, что для LLM, где CPU подготавливает данные для GPU, имеет значение. Используйте утилиту TestMem5 с конфигом anta777 для проверки стабильности.

4ОС и драйверы: ставим минималистичный Linux

Windows? Нет, для серьезной работы нужен Linux. Дистрибутив — Ubuntu 24.04 LTS или его наследник на 2026 год. Устанавливаем минимальный серверный вариант без графической оболочки (чтобы не тратить ресурсы). Далее:

# Устанавливаем драйверы NVIDIA. На 2026 год, скорее всего, актуальна версия 550 или выше.
sudo apt update
sudo apt install -y linux-headers-$(uname -r) build-essential
# Скачиваем драйвер с сайта NVIDIA и устанавливаем
sudo ./NVIDIA-Linux-x86_64-550.xx.xx.run --silent --dkms

# Устанавливаем CUDA Toolkit 12.6 (или новее, что совместимо с PyTorch)
wget https://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda_12.6.0_550.54.14_linux.run
sudo sh cuda_12.6.0_550.54.14_linux.run --toolkit --silent --override

# Добавляем CUDA в PATH
export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

# Устанавливаем PyTorch с поддержкой CUDA 12.6
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

Искусство андервольтинга: как охладить RTX 6000 в 10-литровом ящике

RTX 6000 Ada в стоке может потреблять до 300Вт. В FormD T1 это гарантированный тепловой ад и троттлинг. Решение — андервольтинг. Мы снижаем напряжение, сохраняя почти стоковую частоту, но радикально уменьшаем тепловыделение.

Для этого используем nvidia-smi и собственные скрипты, или утилиту GreenWithEnvy для Linux. Цель: найти стабильную точку, например, 0.875V при 2500 MHz, вместо стоковых 1.1V.

# Пример установки GreenWithEnvy для управления GPU в Linux
sudo apt install -y greenwith-envy
# Запускаем, переходим в настройки кривой частоты/напряжения.
# Вручную выставляем точку: напряжение 875 mV, частота 2500 MHz.
# Применяем и запускаем стресс-тест (например, через FurMark или просто запустив инференс).

Результат? Температура GPU под нагрузкой упадет с 85°C до 65-70°C, вентиляторы будут вращаться на 40-50% вместо 80%, а производительность в LLM-инференсе останется на прежнем уровне или даже вырастет (из-за отсутствия троттлинга). Потребление снизится до 220-240Вт. Это главный секрет жизни в маленьком корпусе.

💡
Андервольтинг — это не разгон. Стабильность системы при этом только повышается, так как снижается тепловая и электрическая нагрузка на компоненты. Это must-do для любой компактной высокопроизводительной сборки.

Цифры не врут: бенчмарки GPT-OSS 120B

Собрали, настроили, теперь тестируем. Используем llama.cpp или vLLM с поддержкой CUDA Graph. Модель: GPT-OSS 120B в 4-битном квантовании (формат GGUF или AWQ).

Конфигурация теста:

  • Промпт: 512 токенов.
  • Генерация: 256 новых токенов.
  • Контекстное окно: 8192.
  • Температура: 0.7, top_p: 0.9.
Конфигурация Скорость (токенов/с) инференса Пиковая температура GPU Потребление системы (из розетки)
Сток (300W TDP) ~4.5 t/s 84°C (троттлинг) ~420W
Андервольтинг (240W) ~5.1 t/s 68°C ~320W

Вывод: андервольтинг не просто охлаждает систему, он позволяет GPU дольше удерживать максимальные частоты, что увеличивает реальную производительность на 10-15%. И это в рюкзаке!

Что может пойти не так: ошибки и их решения

  • Система выключается под нагрузкой: Скорее всего, блок питания SFX-L 1000W не справляется с пиковыми нагрузками (транзиенты). Решение: в BIOS материнской платы ограничьте мощность процессора (PPT) до 120W и проверьте надежность всех соединений с БП.
  • GPU упирается в температуру 85°C и сбрасывает частоты: Недостаточный воздухообмен в корпусе. Попробуйте конфигурацию negative pressure (два вентилятора сверху на выдув, без явного нагнетания). Убедитесь, что корпус стоит на ножках, а не на ковре.
  • Ошибки памяти при загрузке больших моделей: Проверьте, что в системе включен Resizable BAR. Убедитесь, что используете последние стабильные драйверы NVIDIA. Если используете llama.cpp, попробуйте уменьшить параметр -ngl (количество слоев на GPU), оставив часть на CPU, если RAM достаточно.
  • Нестабильность после настройки таймингов RAM: Вы зажали тайминги слишком сильно. Сбросьте BIOS, включите только EXPO/XMP, и оставьте ручные настройки на потом. Стабильность важнее 2% прироста.

Вопросы, которые вы хотели задать, но боялись

Насколько эта станция громкая?

После андервольтинга и правильной настройки кривых вентиляторов — удивительно тихая. В режиме простоя слышен лишь легкий шелест. Под полной нагрузкой на LLM вентиляторы GPU разгоняются до 1500-1700 RPM, что создает заметный, но не ревущий звук (примерно как мощный ноутбук в стрессе). Для офиса или коворкинга — нормально.

Можно ли использовать эту сборку для обучения моделей, а не только инференса?

Можно, но с оговорками. Для fine-tuning 7B-13B моделей с LoRA — отлично. Для полного обучения с нуля даже 7B модели — нецелесообразно, процесс займет недели. Одна карта, даже такая мощная, — это все же инференс-ориентированное решение. Для обучения смотрите в сторону многопроцессорных конфигураций.

Что дешевле: такая сборка или облачные инстансы?

Считайте. Стоимость нашей сборки (на 2026) — около $7000-8000. Облачный инстанс с эквивалентной GPU (например, AWS p4d.24xlarge с A100) стоит примерно $40 в час. За 200 часов работы (меньше 9 дней) вы превышаете стоимость железа. Если вы запускаете модели регулярно — железо окупается за несколько месяцев. Плюс полная приватность и отсутствие зависимости от сети.

FormD T1 — единственный вариант корпуса?

Нет, но один из лучших по соотношению объема, качества сборки и поддержки железа. Альтернативы — Sliger SM580 или Louqe Ghost S1 с топ-хатом. Но FormD T1 выигрывает в компактности при поддержке 3-слотовых карт.

Будет ли эта система актуальна через 2 года?

Для инференса LLM — да. Модели становятся эффективнее, а методы квантования — агрессивнее. GPT-OSS 120B в 4-битном формате, скорее всего, останется репрезентативной нагрузкой. Если же появятся модели с 500B параметрами, требующие 200 ГБ VRAM, то придется думать о многокарточных мобильных решениях. Но для большинства задач на ближайшие пару лет 48 ГБ VRAM — это комфортный минимум.

Собирать такие системы — это не про экономию. Это про свободу. Свободу запускать самые современные языковые модели где угодно: в поезде, на даче, в бункере (ну, на всякий случай). Это инженерный вызов, который окупается восхищенными взглядами коллег и молчаливым пониманием, что ваш рюкзак сейчас умнее, чем серверная половины стартапов.

Подписаться на канал