Что такое LLM Planner?

Это интерактивный планировщик, который на основе базы данных из 50+ моделей и 130+ реальных замеров скорости помогает выбрать видеокарту/сборку под конкретную модель или подобрать модель под имеющееся железо.

Сколько сборок содержит Planner?

Более 60 готовых сборок от $500 до $50 000, включая конфигурации с одним-четырьмя GPU, разными CPU и объёмом RAM.

Насколько точны данные Planner?

Данные основаны на реальных тестах сообщества, а не на симуляции. Каждый бенчмарк сопровождается ссылкой на источник (видео, пост).

LLM Planner: гайд по подбору железа и моделей для локального AI

Проблема: сборка ПК под LLM — это лотерея

Вы начитались хайпа про локальные LLM и решили собрать компьютер. Бюджет — хоть $500, хоть $5000. Вы идете в магазин, смотрите на RTX 4090, думаете: «Возьму 24 ГБ VRAM, хватит на всё». Через неделю вы запускаете Llama 3.3 70B в кванте Q4_K_M и получаете 1.2 токена в секунду. Поздравляю, вы только что выбросили деньги на ветер.

Потому что выбор железа для инференса моделей — это не просто «чем больше видеопамяти, тем лучше». VRAM решает, влезет ли модель целиком, но скорость генерации зависит от шины памяти, количества ядер CUDA, частоты, архитектуры GPU, а также от того, используете ли вы CPU offloading или нет. Без бенчмарков вы вслепую. И тут на сцену выходит LLM Planner — тулза, которая превращает подбор в науку.

Ложка дегтя. Planner — не волшебная пилюля. Он не учитывает тепловыделение, шум, доступность конкретных видеокарт в вашем регионе. Но он дает объективную базу для принятия решений. Без него вы рискуете купить RTX 4060 Ti 16 ГБ и получить одинаковую скорость с RTX 3080 — потому что урезанная шина памяти 128 бит душит пропускную способность.

LLM Planner: калькулятор, который не врет

LLM Planner (доступен как веб-приложение, репозиторий на GitHub) — это интерактивный планировщик, который на основе базы данных из 50+ популярных моделей (включая Llama 4, Mistral, Gemma, Qwen 2.5, DeepSeek, Yi, Command R, Phi-4 и десятки других) и 130+ реальных замеров скорости (tokens/s) на разных конфигурациях железа позволяет решить две задачи:

Выбрать видеокарту/сборку под конкретную модель (например, «хочу запускать Qwen 2.5 32B с контекстом 8192 — какая минимальная конфигурация даст 10+ t/s?»).
Подобрать модель под имеющееся железо (если у вас GTX 1080 Ti 11 ГБ, Planner покажет, какие квантованные модели поместятся в VRAM и с какой скоростью).

При этом Planner ссылается на реальные тесты, которые проводились в рамках сообщества — на YouTube, в ветках Reddit, в блогах разработчиков. Это не симуляция, а агрегированные эмпирические данные. Если на видео у парня с RTX 4090 Llama 3.3 70B выдает 15 t/s в Q4_K_M — Planner показывает именно эту цифру.

💡

Кстати, если вы хотите самостоятельно симулировать производительность, не имея железа под рукой, посмотрите наш обзор LLM Simulator — это браузерный инструмент, который прикидывает скорость на основе параметров модели и GPU. Но Planner точнее, потому что опирается на живые замеры.

Как это работает (по шагам)

1 Выберите модель или железо

Planner дает два режима: Model-first (выбираете модель и квант — получаете список сборок с t/s) и Hardware-first (выбираете GPU или CPU — получаете список моделей с ожидаемой скоростью). Удобно, когда вы точно знаете, что у вас есть, и хотите понять, на что можно рассчитывать.

2 Отфильтруйте по бюджету

Можно задать диапазон цены сборки (включая CPU, RAM, материнку, БП). Planner подбивает ориентировочную стоимость на основе рыночных цен (актуальных на май 2026). Например, вы хотите уложиться в $2000 — Planner покажет, что можно взять RTX 4080 Super с Ryzen 5 7600, и для Mistral 7B Q4_K_M вы получите ~60 t/s, а для Mixtral 8x22B Q4_K_M — ~7 t/s.

3 Изучите детали

Каждая сборка сопровождается ссылками на реальные бенчмарки (чаще всего на YouTube-обзоры или посты в Reddit). Вы можете кликнуть и своими глазами увидеть, как модель работает на конкретном железе. Planner не просто выдает цифру — он дает контекст: с каким контекстным окном проводился тест, какой семпл был использован, была ли задействована CPU offload.

Плюс показывается процент использования VRAM и рекомендации по квантованию, если модель не влезает целиком.

50+ моделей в базе: от Gemma до Llama 4

Planner не пытается объять необъятное — он включает только те модели, которые реально тестировались сообществом. На май 2026 список выглядит так:

Модель	Размер (параметры)	Популярные кванты	Рекомендуемая VRAM (Q4_K_M)
Llama 4 Scout	17B	Q4_K_M, Q5_K_M	12-14 ГБ
Llama 4 Maverick	90B (MoE)	Q3_K_M, Q4_K_M	24-32 ГБ
Mistral Large 2 (123B)	123B	Q3_K_M, Q4_K_M	48-64 ГБ
Qwen 2.5 32B	32B	Q4_K_M, Q4_K_S	20-24 ГБ
DeepSeek R1 (671B MoE)	671B	Q2_K, Q3_K_M	48-96 ГБ
Gemma 3 27B	27B	Q4_K_M, Q5_K_M	16-20 ГБ
Phi-4 14B	14B	Q4_K_M, Q6_K	10-12 ГБ

Всего более 50 записей. Planner регулярно обновляется — сообщество присылает новые бенчмарки и модели. Мы в своем блоге тоже держим руку на пульсе: недавно вышла статья про LLM с поддержкой Tool Calling — такие модели тоже есть в базе Planner.

60+ сборок: от $500 до $50 000

Planner группирует конфигурации по ценовым сегментам. Вот три характерных примера (цены округлены, актуальны на май 2026):

Бюджетная сборка (~$800): Ryzen 5 7600 + RTX 4060 Ti 16 ГБ

CPU: Ryzen 5 7600 (6 ядер, AM5) — $190
GPU: RTX 4060 Ti 16 ГБ — $430
RAM: 32 ГБ DDR5-6000 — $100
Остальное: ~$80
Скорости (llama.cpp, Q4_K_M): Llama 3.1 8B — 55 t/s; Qwen 2.5 14B — 28 t/s; Gemma 2 27B — не влезает полностью (требуется offload на CPU, падает до 6-8 t/s).

С этой сборкой можно комфортно запускать модели до 14B параметров. Для более тяжелых — придется жертвовать скоростью или контекстом. Planner честно предупреждает: «18+ t/s только для моделей <15B в Q4». Не пытайтесь обмануть судьбу — я проверял.

Оптимальная сборка (~$2500): Ryzen 7 7800X3D + RTX 4070 Ti Super 16 ГБ

CPU: Ryzen 7 7800X3D — $450
GPU: RTX 4070 Ti Super 16 ГБ — $800
RAM: 64 ГБ DDR5-6000 — $200
Остальное: ~$250
Скорости: Llama 4 Scout (17B) — 40 t/s; Qwen 2.5 32B (Q4_K_M) — 12 t/s; Mistral Large 2 (123B) — только Q3_K_M с offload, ~4 t/s.

Золотая середина. Здесь вы уже можете запускать 30B-модели с приличной скоростью, но гиганты вроде 123B требуют компромиссов. Planner советует для этой сборки смотреть в сторону MoE-моделей (Mixtral 8x22B, Qwen 2.5 MoE) — они дают больше качества на тот же VRAM.

Топовая сборка (~$8000): Threadripper 7980X + 2x RTX 5090 32 ГБ (NVLink)

CPU: Threadripper 7980X (64 ядра) — $2500
GPU: 2x RTX 5090 32 ГБ — $3200*2 = $6400
RAM: 128 ГБ DDR5-6000 — $400
Остальное: $500
Скорости: DeepSeek R1 (Q3_K_M) — 7 t/s; Llama 4 Maverick (Q4_K_M) — 14 t/s; Qwen 2.5 72B (Q4_K_M) — 25 t/s.

Да, две RTX 5090 — это $6400, и они доступны не всем. Planner показывает, что на такой конфигурации можно запускать даже 671B DeepSeek R1 с приемлемой скоростью (если использовать Q2_K квант). Но есть наш гайд по сборке станции за $15 000, где мы разбираем 4-х GPU конфигурации — там скорости еще выше.

Всего в Planner 60+ готовых сборок от одного GPU до четырёх, с разными CPU (Intel Core Ultra, AMD Ryzen, Threadripper, Xeon). Вы можете комбинировать: например, взять RTX 4090 + RTX 3060 12 ГБ для offload — Planner покажет, насколько это эффективно. Спойлер: эффективно, если основная модель помещается в VRAM старшей карты, а младшая подгружает часть слоев.

130+ бенчмарков: t/s и не только

Planner собирает не просто токены в секунду. Каждый бенчмарк содержит:

Используемый бэкенд (llama.cpp, LM Studio, ExLlamaV2, AutoGPTQ, vLLM). Это критично, потому что разные бэкенды дают разную скорость на одном и том же железе.
Размер контекста (обычно 4096 или 8192). При увеличении контекста скорость падает — Planner это учитывает.
CPU offload (сколько слоев на GPU, сколько на CPU). Для гибридного инференса.
Битность кванта (Q2, Q3, Q4, Q5, Q6, Q8, FP16).

Вот выдержка из таблицы для самых популярных карт (данные от сообщества, май 2026):

GPU	Модель + квант	t/s (context 4096)	Бэкенд
RTX 4090 24GB	Llama 3.1 70B Q4_K_M	15.2	llama.cpp
RTX 4090 24GB	Qwen 2.5 32B Q4_K_M	28.7	LM Studio
RTX 5080 16GB	Llama 3.1 8B Q4_K_M	72.1	ExLlamaV2
RTX A6000 48GB	Mixtral 8x22B Q4_K_M	10.5	llama.cpp
Apple M3 Max 128GB	Mistral Large 2 Q4_K_M (Metal)	4.3	llama.cpp

Обратите внимание: на M3 Max 128GB Mistral Large 2 выдает всего 4.3 t/s, хотя унифицированная память огромная. Planner объясняет — пропускная способность памяти у Apple Silicon (~400 GB/s) ниже, чем у топовых NVIDIA (RTX 4090 ~1000 GB/s). Поэтому для тяжелых моделей на маке скорость ниже. Полезно знать, чтобы не питать иллюзий.

Типичные ошибки при подборе (и как Planner их ловит)

Я видел десятки случаев, когда люди покупали железо, не глядя на бенчмарки. Вот самые частые грабли, которые Planner помогает обойти:

Погоня за VRAM в ущерб скорости. RTX 4060 Ti 16 ГБ vs RTX 4070 12 ГБ. 16 ГБ звучит круто, но шина 128 бит режет пропускную способность. Planner показывает: на Qwen 2.5 32B RTX 4070 (12 ГБ, Q4_K_S не влезает, приходится использовать Q3_K_M) выдает 9 t/s, а RTX 4060 Ti (16 ГБ, Q4_K_M влезает) — 7 t/s. VRAM больше, но скорость ниже. Вывод: для больших моделей лучше взять карту с более широкой шиной, даже с меньшим VRAM, чем карту с большим VRAM но узкой шиной.
Недооценка CPU при offload. Если модель не влезает в VRAM, часть слоев уходит на CPU. Planner показывает, что с медленным CPU (например, Intel N100) offload убивает скорость до неприемлемой. Он рекомендует хотя бы Ryzen 5 или Core i5 для гибридного инференса.
Выбор неправильного бэкенда. Planner по дефолту показывает скорость для llama.cpp, но часто ExLlamaV2 или AutoGPTQ дают прирост 10-30% на том же железе. Planner позволяет переключать бэкенд и смотреть разницу.

💡

Если вы уже собрали ПК и хотите понять, какие модели на нем запускать без танцев с бубном, посмотрите наш полный гид по Ollama — он в том числе включает таблицу совместимости моделей с разным железом. Planner дополняет эту информацию конкретными цифрами.

Неочевидный совет: смотри не только на VRAM

Когда я показываю Planner своим коллегам, они часто тыкают в карту с 48 ГБ (например, RTX A6000) и говорят: «Вот, идеал». А Planner молча показывает цену ~$4500 и скорость на Mistral Large 2 — 8 t/s, что вдвое меньше, чем у RTX 4090 за $1600. Потому что RTX A6000 — это профессиональная карта с упором на точность (FP64) и большой VRAM, но игровые карты имеют более высокую пропускную способность памяти и частоту ядра. Planner учит: для инференса LLM пропускная способность памяти (GB/s) часто важнее объема VRAM.

Прикиньте: RTX 4090 — 1008 GB/s, RTX A6000 — 768 GB/s. Разница 30%. VRAM у A6000 в два раза больше, но скорость ниже. Planner расставляет приоритеты: если вы не планируете запускать модели >50B, 24 ГБ RTX 4090 — лучший выбор. Если же вам нужны 123B модели, придется жертвовать скоростью — A6000 или две RTX 4090.

Перед покупкой загляните в Planner. Вбейте вашу желаемую модель и посмотрите, какую скорость вы получите на разных картах. Потом зайдите на YouTube и поищите обзоры этих конфигураций — в базе Planner есть прямые ссылки на видео. И только потом открывайте кошелек. Это сэкономит вам сотни долларов и километры нервов.

Напоследок напомню: локальный AI развивается так быстро, что через полгода появятся новые модели, кванты и железо. Planner обновляется сообществом — подпишитесь на его GitHub, чтобы не пропустить свежие бенчмарки. А если сомневаетесь в выборе модели — почитайте нашу статью про LLM-лотерею — она поможет не прогадать.

Подписаться на канал

LLM Planner: подбор железа и моделей для локального запуска — 60+ сборок, 50+ моделей и 130+ бенчмарков