Qwen 3.6-27B на двух RTX 3060 за $400: гайд по сборке | AiManual
AiManual Logo Ai / Manual.
27 Май 2026 Гайд

Бюджетный инференс Qwen 3.6-27B: сборка на двух RTX 3060 за $400

Как запустить Qwen 3.6-27B с производительностью 30-50 t/s на двух б/у RTX 3060. Конфигурация за $400, настройка vLLM, подводные камни и альтернативы.

Скажу сразу: звучит как бред. Две древние RTX 3060, купленные с рук по $200 каждая, тащат 27-миллиардную модель — Qwen 3.6-27B. И тащат со скоростью 30-50 токенов в секунду. Никаких A100, никаких H100, никаких кредитов на облако. Только паяльник (ну, почти), прямые руки и желание сэкономить пару тысяч долларов.

Я не шучу. Две RTX 3060 12GB дают суммарные 24GB VRAM. Это ровно столько, сколько нужно для 4-битного квантования модели Qwen 3.6-27B. А если прикрутить Tensor Parallel от vLLM, то графика будет работать как одна виртуальная карта с двойной пропускной способностью памяти. Да, без NVLink — но PCIe 3.0 x16 хватает для inference, если не гонять гигантские батчи.

Важно: Qwen 3.6-27B — это модель, анонсированная в апреле 2026 года. Она позиционируется как локальный LLM для разработчиков, инженеров и энтузиастов. Её главная фишка — высокая точность при умеренных требованиях к VRAM (18-22 ГБ в 4-bit). Именно она делает связку двух RTX 3060 идеальной.

Зачем две карты, если есть одна RTX 5060 Ti?

Логичный вопрос. В 2026 году на рынке уже есть RTX 5060 Ti с 16GB. Но проблема в том, что 16 GB — это потолок для большинства 27B моделей только в 3-битном квантовании. А 3-bit — потеря качества, которая убивает весь смысл запуска 27B модели. Две RTX 3060 дают 24 GB, что позволяет использовать 4-bit без сжатия контекста.

Плюс цена. RTX 5060 Ti 16GB стоит ~$450-500 новая. Две б/у RTX 3060 — $350-400. Да, придётся повозиться с настройкой софта, но результат — вдвое больше VRAM за те же деньги.

Подробное сравнение этих подходов я уже описал в статье «Бюджетный ИИ-ПК: RTX 5060 Ti 16GB против двух RTX 3060. Где спрятаны подводные камни?». Там я детально разобрал узкие места: проблемы с драйверами, PCIe lanes, блоком питания.

Что нужно для сборки за $400

Главное — не экономьте на материнке и блоке питания. В остальном можно взять самое дешёвое. Вот минимальная конфигурация, проверенная в 2026 году:

Компонент Модель Цена (б/у)
GPU #1 NVIDIA GeForce RTX 3060 12GB $200
GPU #2 NVIDIA GeForce RTX 3060 12GB $200
Материнская плата B550 с двумя PCIe x16 (физические) — например, Asus TUF Gaming B550M $80
CPU Ryzen 5 5600 (или 4500 — разницы нет) $50
RAM 16GB DDR4 3200 (32 — лучше, но для старта хватит) $30
Блок питания 650W 80+ Bronze (например, Corsair CX650) $40
SSD любой 256GB NVMe $20
Корпус любой мини-тауэр (убедитесь, что две карты влезут) $30

Предупреждение: На B550 вторая карта будет работать в режиме PCIe 3.0 x4, если вставлена во второй слот. Для inference это не критично — потери производительности 5-10%. Если хотите полный x16, берите материнку на X570 или Threadripper. О сборке на Threadripper я писал в этом гайде, но там бюджет уже $1000+.

Ключевой софт — vLLM и ExLlamaV2

В 2026 году выбор инструмента для распределенного inference уже устоялся: либо vLLM (с поддержкой Tensor Parallel и Pipeline Parallel), либо ExLlamaV2 (шустрее на малых батчах, но без гибкой балансировки).

Я рекомендую vLLM — он прощает ошибки настройки, автоматически распределяет слои по картам и умеет работать с моделями в формате AWQ и GPTQ. Для Qwen 3.6-27B лучше использовать AWQ — меньше потеря качества при том же объёме VRAM.

1 Подготовка драйверов и CUDA

Ставим драйвер 550 или 565 (для Blackwell их нет, для RTX 3060 — любые). Убедитесь, что обе карты видны через nvidia-smi. Если одна не определяется — проверьте питание и слот.

2 Установка vLLM

pip install vllm

Проверяем версию — на май 2026 актуальна vLLM 0.9.2. Если используете Docker, возьмите образ vllm/vllm-openai:latest.

3 Запуск Qwen 3.6-27B на двух GPU

python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen3.6-27B-AWQ \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 4096 \
  --quantization awq

Ключевой параметр — --tensor-parallel-size 2. Он заставляет vLLM резать матрицы весов пополам и распределять по картам. На выходе получаете API, совместимый с OpenAI. Можно подключать любой фронтенд типа Open WebUI или продолжать работу в Jupyter.

Чего ожидать от производительности

Тесты на реальном «железе» (Ryzen 5 5600, 16GB DDR4, две RTX 3060 @ PCIe 3.0 x16 + x4):

  • 4-bit AWQ, max context 4096: 32-38 t/s на генерации, до 45 t/s на префилле.
  • 4-bit GPTQ, max context 4096: 28-34 t/s (рекомендуется только если нет AWQ-версии модели).
  • 3-bit AWQ, max context 8192: 40-50 t/s, но качество заметно хуже — для кода ещё сойдёт, для осмысленного текста нет.

Сравните: одна RTX 5060 Ti 16GB в 3-bit даёт те же 35-40 t/s, но при контексте 2048 — из-за нехватки VRAM. Так что две RTX 3060 объективно выигрывают по реальной плотности токенов на доллар.

Типичные ошибки и как их избежать

Ошибка 1: забыли про PCIe-разъёмы

На дешёвых материнках второй слот часто работает как x4, а то и x1. Если поставить две RTX 3060 в x1 — производительность упадёт до 5-10 t/s. Решение: либо материнка с чипсетом X570 (все слоты x16), либо смириться с x4 — потери не больше 15%.

Ошибка 2: недостаточный блок питания

RTX 3060 потребляет до 170W каждая. Плюс CPU — 65W. Суммарно ~400W, но при пиковых нагрузках (префилл) карты дёргают до 200W каждая. Блок на 550W может не вытянуть — лучше брать 650W с запасом.

Ошибка 3: tensor parallel без идентичных карт

Если одна карта 12GB, а другая 8GB — vLLM упадёт с ошибкой. У RTX 3060 объём памяти одинаковый, но скорость памяти может отличаться (Samsung vs Micron). Это не критично, но лучше взять две одинаковые модели, желательно одной партии.

Ошибка 4: CPU offloading

Некоторые пытаются сэкономить и используют CPU для хранения части весов. На Ryzen 5 это даёт 2-3 t/s — лучше убиться. Две RTX 3060 держат модель целиком — не включайте --cpu-offload-gb без крайней необходимости.

Альтернативы и когда они выгоднее

На рынке 2026 года есть несколько бюджетных путей:

  • Одна RTX 3090 24GB — $600-700. Быстрее (60-80 t/s), проще настройка, но дороже. Если найдёте по $500 — берите без раздумий.
  • Три RTX 3060 на базе eGPU? Теоретически возможно, но узким местом станет Thunderbolt. Подробно разбирал в статье «Собираем ПК для локальных LLM за копейки: 3× RTX 3090 и eGPU» — для RTX 3060 подход тот же, но проще собрать полноценную материнку.
  • Китайские GPU типа Biren или Moore Threads. Они дают больше VRAM за меньшие деньги, но софт сыроват. У меня есть гайд по сборке сервера на 96GB из Шэньчжэня — читайте, если готовы к танцам с бубном.
  • Сервер на Threadripper из категории «24/7». Не ваш случай — он оправдан только если нужно крутить модели постоянно.

Итоговая проверка работоспособности

После запуска проверьте, что карты используются равномерно:

watch -n 1 nvidia-smi

Обе должны быть загружены на 80-95%, а потребление памяти — близким к 11,5 GB на каждой. Если одна простаивает — значит, tensor parallel не включился. Перепроверьте команду.

Для тех, кто хочет расширить ферму — советую прочитать мой опыт сборки из 6 б/у карт в статье «Собрал ферму из 6 б/у видеокарт. Вот как заставить их работать на локальные LLM». Там те же грабли, только в шестерном размере.

Часто задаваемые вопросы

Можно ли использовать одну RTX 3060 и одну RTX 4060?

Нет. vLLM требует одинаковый объём VRAM и одинаковую архитектуру для Tensor Parallel. RTX 3060 (Ampere) и RTX 4060 (Ada) несовместимы — упадёт с ошибкой при инициализации.

Стоит ли добавлять третью RTX 3060?

Для 27B модели — нет. Третья карта даст больше VRAM, но модель не вырастет — максимум увеличится контекст до 8192 в 4-bit. Однако третья карта потребует материнку с тремя слотами x16 (минимум x4), что дорого.

Почему не взять одну RTX 5070 Ti 16GB?

Во-первых, она стоит $750+. Во-вторых, 16 GB — это контекст 2048-4096 в 4-bit. Для серьёзной работы не хватит. Сравнение двух RTX 5060 Ti и одной 5070 Ti я делал в отдельной статье «Dual RTX 5060 Ti vs Single RTX 5070 Ti» — вывод: для 27B пара средних карт выгоднее топовой одной.

Подойдёт ли такой ПК для других моделей?

Да. Вы сможете запускать любые модели до 30B в 4-bit: CodeLlama 34B, Mixtral 8x22B (только 3-bit), DeepSeek-V2 Lite. Для моделей больше 40B уже нужно 3 карты или CPU offloading.

Сборка за $400 даёт вам полноценный inference, который по качеству ответов не уступает API OpenAI за $20 в месяц — только работает локально, без цензуры и задержек. Да, придётся повозиться с материнкой и драйверами. Но когда Qwen 3.6-27B выдаст первый осмысленный ответ со скоростью 40 токенов в секунду — вы поймёте, что игра стоила свеч.

Подписаться на канал