LLM Planner: гайд по подбору железа и моделей для локального AI | AiManual
AiManual Logo Ai / Manual.
21 Май 2026 Гайд

LLM Planner: подбор железа и моделей для локального запуска — 60+ сборок, 50+ моделей и 130+ бенчмарков

Планировщик LLM: 50+ моделей, 60+ сборок, 130+ бенчмарков. Как выбрать ПК под нейросети или модель под свой компьютер. Реальные t/s и ссылки на тесты.

Проблема: сборка ПК под LLM — это лотерея

Вы начитались хайпа про локальные LLM и решили собрать компьютер. Бюджет — хоть $500, хоть $5000. Вы идете в магазин, смотрите на RTX 4090, думаете: «Возьму 24 ГБ VRAM, хватит на всё». Через неделю вы запускаете Llama 3.3 70B в кванте Q4_K_M и получаете 1.2 токена в секунду. Поздравляю, вы только что выбросили деньги на ветер.

Потому что выбор железа для инференса моделей — это не просто «чем больше видеопамяти, тем лучше». VRAM решает, влезет ли модель целиком, но скорость генерации зависит от шины памяти, количества ядер CUDA, частоты, архитектуры GPU, а также от того, используете ли вы CPU offloading или нет. Без бенчмарков вы вслепую. И тут на сцену выходит LLM Planner — тулза, которая превращает подбор в науку.

Ложка дегтя. Planner — не волшебная пилюля. Он не учитывает тепловыделение, шум, доступность конкретных видеокарт в вашем регионе. Но он дает объективную базу для принятия решений. Без него вы рискуете купить RTX 4060 Ti 16 ГБ и получить одинаковую скорость с RTX 3080 — потому что урезанная шина памяти 128 бит душит пропускную способность.

LLM Planner: калькулятор, который не врет

LLM Planner (доступен как веб-приложение, репозиторий на GitHub) — это интерактивный планировщик, который на основе базы данных из 50+ популярных моделей (включая Llama 4, Mistral, Gemma, Qwen 2.5, DeepSeek, Yi, Command R, Phi-4 и десятки других) и 130+ реальных замеров скорости (tokens/s) на разных конфигурациях железа позволяет решить две задачи:

  • Выбрать видеокарту/сборку под конкретную модель (например, «хочу запускать Qwen 2.5 32B с контекстом 8192 — какая минимальная конфигурация даст 10+ t/s?»).
  • Подобрать модель под имеющееся железо (если у вас GTX 1080 Ti 11 ГБ, Planner покажет, какие квантованные модели поместятся в VRAM и с какой скоростью).

При этом Planner ссылается на реальные тесты, которые проводились в рамках сообщества — на YouTube, в ветках Reddit, в блогах разработчиков. Это не симуляция, а агрегированные эмпирические данные. Если на видео у парня с RTX 4090 Llama 3.3 70B выдает 15 t/s в Q4_K_M — Planner показывает именно эту цифру.

💡
Кстати, если вы хотите самостоятельно симулировать производительность, не имея железа под рукой, посмотрите наш обзор LLM Simulator — это браузерный инструмент, который прикидывает скорость на основе параметров модели и GPU. Но Planner точнее, потому что опирается на живые замеры.

Как это работает (по шагам)

1 Выберите модель или железо

Planner дает два режима: Model-first (выбираете модель и квант — получаете список сборок с t/s) и Hardware-first (выбираете GPU или CPU — получаете список моделей с ожидаемой скоростью). Удобно, когда вы точно знаете, что у вас есть, и хотите понять, на что можно рассчитывать.

2 Отфильтруйте по бюджету

Можно задать диапазон цены сборки (включая CPU, RAM, материнку, БП). Planner подбивает ориентировочную стоимость на основе рыночных цен (актуальных на май 2026). Например, вы хотите уложиться в $2000 — Planner покажет, что можно взять RTX 4080 Super с Ryzen 5 7600, и для Mistral 7B Q4_K_M вы получите ~60 t/s, а для Mixtral 8x22B Q4_K_M — ~7 t/s.

3 Изучите детали

Каждая сборка сопровождается ссылками на реальные бенчмарки (чаще всего на YouTube-обзоры или посты в Reddit). Вы можете кликнуть и своими глазами увидеть, как модель работает на конкретном железе. Planner не просто выдает цифру — он дает контекст: с каким контекстным окном проводился тест, какой семпл был использован, была ли задействована CPU offload.

Плюс показывается процент использования VRAM и рекомендации по квантованию, если модель не влезает целиком.

50+ моделей в базе: от Gemma до Llama 4

Planner не пытается объять необъятное — он включает только те модели, которые реально тестировались сообществом. На май 2026 список выглядит так:

МодельРазмер (параметры)Популярные квантыРекомендуемая VRAM (Q4_K_M)
Llama 4 Scout17BQ4_K_M, Q5_K_M12-14 ГБ
Llama 4 Maverick90B (MoE)Q3_K_M, Q4_K_M24-32 ГБ
Mistral Large 2 (123B)123BQ3_K_M, Q4_K_M48-64 ГБ
Qwen 2.5 32B32BQ4_K_M, Q4_K_S20-24 ГБ
DeepSeek R1 (671B MoE)671BQ2_K, Q3_K_M48-96 ГБ
Gemma 3 27B27BQ4_K_M, Q5_K_M16-20 ГБ
Phi-4 14B14BQ4_K_M, Q6_K10-12 ГБ

Всего более 50 записей. Planner регулярно обновляется — сообщество присылает новые бенчмарки и модели. Мы в своем блоге тоже держим руку на пульсе: недавно вышла статья про LLM с поддержкой Tool Calling — такие модели тоже есть в базе Planner.

60+ сборок: от $500 до $50 000

Planner группирует конфигурации по ценовым сегментам. Вот три характерных примера (цены округлены, актуальны на май 2026):

Бюджетная сборка (~$800): Ryzen 5 7600 + RTX 4060 Ti 16 ГБ

  • CPU: Ryzen 5 7600 (6 ядер, AM5) — $190
  • GPU: RTX 4060 Ti 16 ГБ — $430
  • RAM: 32 ГБ DDR5-6000 — $100
  • Остальное: ~$80
  • Скорости (llama.cpp, Q4_K_M): Llama 3.1 8B — 55 t/s; Qwen 2.5 14B — 28 t/s; Gemma 2 27B — не влезает полностью (требуется offload на CPU, падает до 6-8 t/s).

С этой сборкой можно комфортно запускать модели до 14B параметров. Для более тяжелых — придется жертвовать скоростью или контекстом. Planner честно предупреждает: «18+ t/s только для моделей <15B в Q4». Не пытайтесь обмануть судьбу — я проверял.

Оптимальная сборка (~$2500): Ryzen 7 7800X3D + RTX 4070 Ti Super 16 ГБ

  • CPU: Ryzen 7 7800X3D — $450
  • GPU: RTX 4070 Ti Super 16 ГБ — $800
  • RAM: 64 ГБ DDR5-6000 — $200
  • Остальное: ~$250
  • Скорости: Llama 4 Scout (17B) — 40 t/s; Qwen 2.5 32B (Q4_K_M) — 12 t/s; Mistral Large 2 (123B) — только Q3_K_M с offload, ~4 t/s.

Золотая середина. Здесь вы уже можете запускать 30B-модели с приличной скоростью, но гиганты вроде 123B требуют компромиссов. Planner советует для этой сборки смотреть в сторону MoE-моделей (Mixtral 8x22B, Qwen 2.5 MoE) — они дают больше качества на тот же VRAM.

Топовая сборка (~$8000): Threadripper 7980X + 2x RTX 5090 32 ГБ (NVLink)

  • CPU: Threadripper 7980X (64 ядра) — $2500
  • GPU: 2x RTX 5090 32 ГБ — $3200*2 = $6400
  • RAM: 128 ГБ DDR5-6000 — $400
  • Остальное: $500
  • Скорости: DeepSeek R1 (Q3_K_M) — 7 t/s; Llama 4 Maverick (Q4_K_M) — 14 t/s; Qwen 2.5 72B (Q4_K_M) — 25 t/s.

Да, две RTX 5090 — это $6400, и они доступны не всем. Planner показывает, что на такой конфигурации можно запускать даже 671B DeepSeek R1 с приемлемой скоростью (если использовать Q2_K квант). Но есть наш гайд по сборке станции за $15 000, где мы разбираем 4-х GPU конфигурации — там скорости еще выше.

Всего в Planner 60+ готовых сборок от одного GPU до четырёх, с разными CPU (Intel Core Ultra, AMD Ryzen, Threadripper, Xeon). Вы можете комбинировать: например, взять RTX 4090 + RTX 3060 12 ГБ для offload — Planner покажет, насколько это эффективно. Спойлер: эффективно, если основная модель помещается в VRAM старшей карты, а младшая подгружает часть слоев.

130+ бенчмарков: t/s и не только

Planner собирает не просто токены в секунду. Каждый бенчмарк содержит:

  • Используемый бэкенд (llama.cpp, LM Studio, ExLlamaV2, AutoGPTQ, vLLM). Это критично, потому что разные бэкенды дают разную скорость на одном и том же железе.
  • Размер контекста (обычно 4096 или 8192). При увеличении контекста скорость падает — Planner это учитывает.
  • CPU offload (сколько слоев на GPU, сколько на CPU). Для гибридного инференса.
  • Битность кванта (Q2, Q3, Q4, Q5, Q6, Q8, FP16).

Вот выдержка из таблицы для самых популярных карт (данные от сообщества, май 2026):

GPUМодель + квантt/s (context 4096)Бэкенд
RTX 4090 24GBLlama 3.1 70B Q4_K_M15.2llama.cpp
RTX 4090 24GBQwen 2.5 32B Q4_K_M28.7LM Studio
RTX 5080 16GBLlama 3.1 8B Q4_K_M72.1ExLlamaV2
RTX A6000 48GBMixtral 8x22B Q4_K_M10.5llama.cpp
Apple M3 Max 128GBMistral Large 2 Q4_K_M (Metal)4.3llama.cpp

Обратите внимание: на M3 Max 128GB Mistral Large 2 выдает всего 4.3 t/s, хотя унифицированная память огромная. Planner объясняет — пропускная способность памяти у Apple Silicon (~400 GB/s) ниже, чем у топовых NVIDIA (RTX 4090 ~1000 GB/s). Поэтому для тяжелых моделей на маке скорость ниже. Полезно знать, чтобы не питать иллюзий.

Типичные ошибки при подборе (и как Planner их ловит)

Я видел десятки случаев, когда люди покупали железо, не глядя на бенчмарки. Вот самые частые грабли, которые Planner помогает обойти:

  • Погоня за VRAM в ущерб скорости. RTX 4060 Ti 16 ГБ vs RTX 4070 12 ГБ. 16 ГБ звучит круто, но шина 128 бит режет пропускную способность. Planner показывает: на Qwen 2.5 32B RTX 4070 (12 ГБ, Q4_K_S не влезает, приходится использовать Q3_K_M) выдает 9 t/s, а RTX 4060 Ti (16 ГБ, Q4_K_M влезает) — 7 t/s. VRAM больше, но скорость ниже. Вывод: для больших моделей лучше взять карту с более широкой шиной, даже с меньшим VRAM, чем карту с большим VRAM но узкой шиной.
  • Недооценка CPU при offload. Если модель не влезает в VRAM, часть слоев уходит на CPU. Planner показывает, что с медленным CPU (например, Intel N100) offload убивает скорость до неприемлемой. Он рекомендует хотя бы Ryzen 5 или Core i5 для гибридного инференса.
  • Выбор неправильного бэкенда. Planner по дефолту показывает скорость для llama.cpp, но часто ExLlamaV2 или AutoGPTQ дают прирост 10-30% на том же железе. Planner позволяет переключать бэкенд и смотреть разницу.
💡
Если вы уже собрали ПК и хотите понять, какие модели на нем запускать без танцев с бубном, посмотрите наш полный гид по Ollama — он в том числе включает таблицу совместимости моделей с разным железом. Planner дополняет эту информацию конкретными цифрами.

Неочевидный совет: смотри не только на VRAM

Когда я показываю Planner своим коллегам, они часто тыкают в карту с 48 ГБ (например, RTX A6000) и говорят: «Вот, идеал». А Planner молча показывает цену ~$4500 и скорость на Mistral Large 2 — 8 t/s, что вдвое меньше, чем у RTX 4090 за $1600. Потому что RTX A6000 — это профессиональная карта с упором на точность (FP64) и большой VRAM, но игровые карты имеют более высокую пропускную способность памяти и частоту ядра. Planner учит: для инференса LLM пропускная способность памяти (GB/s) часто важнее объема VRAM.

Прикиньте: RTX 4090 — 1008 GB/s, RTX A6000 — 768 GB/s. Разница 30%. VRAM у A6000 в два раза больше, но скорость ниже. Planner расставляет приоритеты: если вы не планируете запускать модели >50B, 24 ГБ RTX 4090 — лучший выбор. Если же вам нужны 123B модели, придется жертвовать скоростью — A6000 или две RTX 4090.

Перед покупкой загляните в Planner. Вбейте вашу желаемую модель и посмотрите, какую скорость вы получите на разных картах. Потом зайдите на YouTube и поищите обзоры этих конфигураций — в базе Planner есть прямые ссылки на видео. И только потом открывайте кошелек. Это сэкономит вам сотни долларов и километры нервов.

Напоследок напомню: локальный AI развивается так быстро, что через полгода появятся новые модели, кванты и железо. Planner обновляется сообществом — подпишитесь на его GitHub, чтобы не пропустить свежие бенчмарки. А если сомневаетесь в выборе модели — почитайте нашу статью про LLM-лотерею — она поможет не прогадать.

Подписаться на канал