Скажу сразу: звучит как бред. Две древние RTX 3060, купленные с рук по $200 каждая, тащат 27-миллиардную модель — Qwen 3.6-27B. И тащат со скоростью 30-50 токенов в секунду. Никаких A100, никаких H100, никаких кредитов на облако. Только паяльник (ну, почти), прямые руки и желание сэкономить пару тысяч долларов.
Я не шучу. Две RTX 3060 12GB дают суммарные 24GB VRAM. Это ровно столько, сколько нужно для 4-битного квантования модели Qwen 3.6-27B. А если прикрутить Tensor Parallel от vLLM, то графика будет работать как одна виртуальная карта с двойной пропускной способностью памяти. Да, без NVLink — но PCIe 3.0 x16 хватает для inference, если не гонять гигантские батчи.
Важно: Qwen 3.6-27B — это модель, анонсированная в апреле 2026 года. Она позиционируется как локальный LLM для разработчиков, инженеров и энтузиастов. Её главная фишка — высокая точность при умеренных требованиях к VRAM (18-22 ГБ в 4-bit). Именно она делает связку двух RTX 3060 идеальной.
Зачем две карты, если есть одна RTX 5060 Ti?
Логичный вопрос. В 2026 году на рынке уже есть RTX 5060 Ti с 16GB. Но проблема в том, что 16 GB — это потолок для большинства 27B моделей только в 3-битном квантовании. А 3-bit — потеря качества, которая убивает весь смысл запуска 27B модели. Две RTX 3060 дают 24 GB, что позволяет использовать 4-bit без сжатия контекста.
Плюс цена. RTX 5060 Ti 16GB стоит ~$450-500 новая. Две б/у RTX 3060 — $350-400. Да, придётся повозиться с настройкой софта, но результат — вдвое больше VRAM за те же деньги.
Подробное сравнение этих подходов я уже описал в статье «Бюджетный ИИ-ПК: RTX 5060 Ti 16GB против двух RTX 3060. Где спрятаны подводные камни?». Там я детально разобрал узкие места: проблемы с драйверами, PCIe lanes, блоком питания.
Что нужно для сборки за $400
Главное — не экономьте на материнке и блоке питания. В остальном можно взять самое дешёвое. Вот минимальная конфигурация, проверенная в 2026 году:
| Компонент | Модель | Цена (б/у) |
|---|---|---|
| GPU #1 | NVIDIA GeForce RTX 3060 12GB | $200 |
| GPU #2 | NVIDIA GeForce RTX 3060 12GB | $200 |
| Материнская плата | B550 с двумя PCIe x16 (физические) — например, Asus TUF Gaming B550M | $80 |
| CPU | Ryzen 5 5600 (или 4500 — разницы нет) | $50 |
| RAM | 16GB DDR4 3200 (32 — лучше, но для старта хватит) | $30 |
| Блок питания | 650W 80+ Bronze (например, Corsair CX650) | $40 |
| SSD | любой 256GB NVMe | $20 |
| Корпус | любой мини-тауэр (убедитесь, что две карты влезут) | $30 |
Предупреждение: На B550 вторая карта будет работать в режиме PCIe 3.0 x4, если вставлена во второй слот. Для inference это не критично — потери производительности 5-10%. Если хотите полный x16, берите материнку на X570 или Threadripper. О сборке на Threadripper я писал в этом гайде, но там бюджет уже $1000+.
Ключевой софт — vLLM и ExLlamaV2
В 2026 году выбор инструмента для распределенного inference уже устоялся: либо vLLM (с поддержкой Tensor Parallel и Pipeline Parallel), либо ExLlamaV2 (шустрее на малых батчах, но без гибкой балансировки).
Я рекомендую vLLM — он прощает ошибки настройки, автоматически распределяет слои по картам и умеет работать с моделями в формате AWQ и GPTQ. Для Qwen 3.6-27B лучше использовать AWQ — меньше потеря качества при том же объёме VRAM.
1 Подготовка драйверов и CUDA
Ставим драйвер 550 или 565 (для Blackwell их нет, для RTX 3060 — любые). Убедитесь, что обе карты видны через nvidia-smi. Если одна не определяется — проверьте питание и слот.
2 Установка vLLM
pip install vllm
Проверяем версию — на май 2026 актуальна vLLM 0.9.2. Если используете Docker, возьмите образ vllm/vllm-openai:latest.
3 Запуск Qwen 3.6-27B на двух GPU
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.6-27B-AWQ \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--max-model-len 4096 \
--quantization awq
Ключевой параметр — --tensor-parallel-size 2. Он заставляет vLLM резать матрицы весов пополам и распределять по картам. На выходе получаете API, совместимый с OpenAI. Можно подключать любой фронтенд типа Open WebUI или продолжать работу в Jupyter.
Чего ожидать от производительности
Тесты на реальном «железе» (Ryzen 5 5600, 16GB DDR4, две RTX 3060 @ PCIe 3.0 x16 + x4):
- 4-bit AWQ, max context 4096: 32-38 t/s на генерации, до 45 t/s на префилле.
- 4-bit GPTQ, max context 4096: 28-34 t/s (рекомендуется только если нет AWQ-версии модели).
- 3-bit AWQ, max context 8192: 40-50 t/s, но качество заметно хуже — для кода ещё сойдёт, для осмысленного текста нет.
Сравните: одна RTX 5060 Ti 16GB в 3-bit даёт те же 35-40 t/s, но при контексте 2048 — из-за нехватки VRAM. Так что две RTX 3060 объективно выигрывают по реальной плотности токенов на доллар.
Типичные ошибки и как их избежать
Ошибка 1: забыли про PCIe-разъёмы
На дешёвых материнках второй слот часто работает как x4, а то и x1. Если поставить две RTX 3060 в x1 — производительность упадёт до 5-10 t/s. Решение: либо материнка с чипсетом X570 (все слоты x16), либо смириться с x4 — потери не больше 15%.
Ошибка 2: недостаточный блок питания
RTX 3060 потребляет до 170W каждая. Плюс CPU — 65W. Суммарно ~400W, но при пиковых нагрузках (префилл) карты дёргают до 200W каждая. Блок на 550W может не вытянуть — лучше брать 650W с запасом.
Ошибка 3: tensor parallel без идентичных карт
Если одна карта 12GB, а другая 8GB — vLLM упадёт с ошибкой. У RTX 3060 объём памяти одинаковый, но скорость памяти может отличаться (Samsung vs Micron). Это не критично, но лучше взять две одинаковые модели, желательно одной партии.
Ошибка 4: CPU offloading
Некоторые пытаются сэкономить и используют CPU для хранения части весов. На Ryzen 5 это даёт 2-3 t/s — лучше убиться. Две RTX 3060 держат модель целиком — не включайте --cpu-offload-gb без крайней необходимости.
Альтернативы и когда они выгоднее
На рынке 2026 года есть несколько бюджетных путей:
- Одна RTX 3090 24GB — $600-700. Быстрее (60-80 t/s), проще настройка, но дороже. Если найдёте по $500 — берите без раздумий.
- Три RTX 3060 на базе eGPU? Теоретически возможно, но узким местом станет Thunderbolt. Подробно разбирал в статье «Собираем ПК для локальных LLM за копейки: 3× RTX 3090 и eGPU» — для RTX 3060 подход тот же, но проще собрать полноценную материнку.
- Китайские GPU типа Biren или Moore Threads. Они дают больше VRAM за меньшие деньги, но софт сыроват. У меня есть гайд по сборке сервера на 96GB из Шэньчжэня — читайте, если готовы к танцам с бубном.
- Сервер на Threadripper из категории «24/7». Не ваш случай — он оправдан только если нужно крутить модели постоянно.
Итоговая проверка работоспособности
После запуска проверьте, что карты используются равномерно:
watch -n 1 nvidia-smi
Обе должны быть загружены на 80-95%, а потребление памяти — близким к 11,5 GB на каждой. Если одна простаивает — значит, tensor parallel не включился. Перепроверьте команду.
Для тех, кто хочет расширить ферму — советую прочитать мой опыт сборки из 6 б/у карт в статье «Собрал ферму из 6 б/у видеокарт. Вот как заставить их работать на локальные LLM». Там те же грабли, только в шестерном размере.
Часто задаваемые вопросы
Можно ли использовать одну RTX 3060 и одну RTX 4060?
Нет. vLLM требует одинаковый объём VRAM и одинаковую архитектуру для Tensor Parallel. RTX 3060 (Ampere) и RTX 4060 (Ada) несовместимы — упадёт с ошибкой при инициализации.
Стоит ли добавлять третью RTX 3060?
Для 27B модели — нет. Третья карта даст больше VRAM, но модель не вырастет — максимум увеличится контекст до 8192 в 4-bit. Однако третья карта потребует материнку с тремя слотами x16 (минимум x4), что дорого.
Почему не взять одну RTX 5070 Ti 16GB?
Во-первых, она стоит $750+. Во-вторых, 16 GB — это контекст 2048-4096 в 4-bit. Для серьёзной работы не хватит. Сравнение двух RTX 5060 Ti и одной 5070 Ti я делал в отдельной статье «Dual RTX 5060 Ti vs Single RTX 5070 Ti» — вывод: для 27B пара средних карт выгоднее топовой одной.
Подойдёт ли такой ПК для других моделей?
Да. Вы сможете запускать любые модели до 30B в 4-bit: CodeLlama 34B, Mixtral 8x22B (только 3-bit), DeepSeek-V2 Lite. Для моделей больше 40B уже нужно 3 карты или CPU offloading.
Сборка за $400 даёт вам полноценный inference, который по качеству ответов не уступает API OpenAI за $20 в месяц — только работает локально, без цензуры и задержек. Да, придётся повозиться с материнкой и драйверами. Но когда Qwen 3.6-27B выдаст первый осмысленный ответ со скоростью 40 токенов в секунду — вы поймёте, что игра стоила свеч.