Лучшие локальные LLM 2025 для 3×3090: сравнение и бенчмарки | AiManual
AiManual Logo Ai / Manual.
07 Июн 2026 Новости

3×RTX 3090: битва титанов 2025 года — какую локальную модель выбрать, когда 72 ГБ VRAM решают всё

Сравнение лучших открытых LLM 2025 года для конфигурации 3×RTX 3090. Бенчмарки, квантизация, скорость и качество — что реально работает на 72 ГБ VRAM.

Реклама
hor_partv1

72 гигабайта — это потолок или трамплин?

Когда у тебя три RTX 3090 под столом, вопрос "а влезет ли?" перестает быть актуальным. 72 ГБ — это уже серьезный аргумент. Но парадокс 2025 года: моделей, которые точно влезают, стало так много, что глаза разбегаются. И каждую нужно не просто запустить, а получить от нее вменяемый ответ быстрее, чем чайник закипит.

Я перебрал с десяток сборок, убил две недели на прогоны бенчмарков и готов вынести вердикт: золотая середина — это модели 70-80B в Q4_K_M или Q5_K_M. Но внутри этой "серебряной пули" есть свои нюансы. И если вы думаете, что Llama 3.1-70B — король, то я вас разочарую: корона шатается.

Кто вышел на ринг в 2025-м?

В 2025 году поле локальных LLM разделилось на три весовые категории: легковесы (до 30B), тяжеловесы (70-80B) и сверхтяжи (100B+). Нас интересует вторая — для нее 72 ГБ идеальны. Но есть нюанс: некоторые "тяжеловесы" требуют хитрых ухищрений вроде MiniMax 2.5, который на 3×3090 летает только в Q3_K_M, или Mistral-Medium-3.5-128B, который там же, в Q3_K_M на 3×3090, показывает чудеса, но не без компромиссов.

МодельРазмер (B)Квантизация на 72 ГБСкорость (ток/с)Оценка качества (1-10)
Llama 3.1-70B70Q5_K_M12-149.0
Qwen 2.5-72B72Q4_K_M10-129.2
DeepSeek-V2.5-67B67Q5_K_M14-168.8
Mixtral 8x22B MoE141 (active ~40)Q4_K_M18-228.5
Mistral-Medium-3.5-128B128Q3_K_M5-79.4
MiniMax 2.5-80B80Q3_K_M8-109.1

Скорость замерялась при batch size = 1, 4-bit KV cache, контекст 4096 токенов, инференс через llama.cpp на Ubuntu 24.04 с P2P-драйвером. 3×3090 (EVGA FTW3), PCIe 3.0 x8 на каждую.

Почему Mixtral 8x22B — тёмная лошадка, а не победитель?

На бумаге Mixtral с активными 40B из 141B должен быть быстрее всех. И он действительно шпарит 20 токенов в секунду — это почти диалог в реальном времени. Но есть подвох: качество на сложных логических задачах (тесты MATH, HumanEval) проседает относительно Qwen 2.5-72B и даже Llama 3.1. MoE-модели отлично пишут тексты и код средней сложности, но когда дело доходит до многошаговых рассуждений, их "эксперты" начинают спорить друг с другом. Если вам нужен ассистент для креативного письма — берите Mixtral. Если дебаг сложного бага — лучше Qwen.

Внимание: Mixtral 8x22B отлично работает в multi-GPU только если включён P2P-драйвер. Без него скорость падает вдвое из-за пересылок через CPU. Настройка P2P описана в статье про 7 видеокарт на AM5.

Король логики: Qwen 2.5-72B (Q4_K_M) vs Llama 3.1-70B (Q5_K_M)

Сравнивать их — как выбирать между Porsche и Ferrari. Оба летают, оба едят 72 ГБ почти целиком. Но бенчмарки 2025 года рисуют любопытную картину. Llama 3.1 берет объемом знаний — она обучена на более широком корпусе, поэтому отлично отвечает на вопросы по истории, культуре, редким языкам. Qwen 2.5 сильнее в математике и программировании — на HumanEval она показывает 82% против 78% у Llama. При этом Qwen быстрее выдает первый токен (TTFT) благодаря оптимизированному токенизатору.

Мой личный выбор — Qwen 2.5-72B. Почему? Потому что на практике разница в "общей эрудиции" незаметна, а в код-ревью и рефакторинге Qwen просто размазывает конкурентов. Но это вкусовщина — на Reddit, согласно обсуждениям сообщества, голоса делятся примерно поровну.

Взгляд в бездну: стоят ли овчинки выделки модели 128B+ на Q3?

Когда я впервые запустил Mistral-Medium-3.5-128B в Q3_K_M на трех 3090, я ждал чуда. И оно случилось: модель генерирует осмысленные ответы. Детализация и глубина рассуждений на порядок выше, чем у 70B моделей. Но цена — 5-7 токенов в секунду. Это "живой" диалог с 3-секундной задержкой. На кодинге это еще терпимо, но на длинных контекстах — пытка. Если у вас железные нервы и вы готовы ждать — модель дает качество, близкое к GPT-4. Но для ежедневной работы лучше взять Qwen или Llama с квантизацией Q5 — они и быстрее, и надежнее.

💡
Совет: если вы решите запустить Mistral-Medium-3.5-128B на 3×3090, не используйте CPU offloading — это убьет скорость. Лучше пожертвуйте размером контекста (4K вместо 8K) и держите всё в VRAM. Как это настроить — читайте в сравнении 4×3080 20GB против 3×3090.

Итоговая таблица решений по задачам

ЗадачаМодель (квантизация)Почему
Программирование и дебагQwen 2.5-72B (Q4_K_M)Лучшие результаты на HumanEval и MBPP, быстрый первый токен.
Креативное письмо, переговорыMixtral 8x22B (Q4_K_M)Высочайшая скорость, плавный язык, естественная аргументация.
Математика, логика, наукаDeepSeek-V2.5-67B (Q5_K_M)Специализированное обучение на научных датасетах, точные расчёты.
Универсальный помощникLlama 3.1-70B (Q5_K_M)Сбалансированность, высокая точность фактов, огромное комьюнити.
Максимальное качество (медленно)Mistral-Medium-3.5-128B (Q3_K_M)Для долгих аналитических задач, когда скорость не критична.

Что важно знать перед выбором

Первое — не гонитесь за размером контекста. На 3×3090 с 72 ГБ вы можете спокойно держать 32K токенов, но некоторые модели (особенно Mistral и DeepSeek) заметно замедляются при контексте >16K. Второе — не забывайте про P2P. Если ваши карты висят на разном PCIe без моста, скорость межкарточного обмена станет бутылочным горлышком. Настройка описана в статье про корпоративный LLM, и она реально экономит деньги на токенах. Третье — используйте версии GGUF от TheBloke (или их форки), они протестированы на multi-GPU. Самогонные сборки из HuggingFace могут упасть на ровном месте.

И последнее: если бюджет позволяет — присмотритесь к RTX 5090, но сейчас они подорожали, так что 3×3090 остаются лучшим соотношением цена/VRAM. Не меняйте их на одну RTX 5090 с 32 ГБ — потеряете 40 ГБ и получите лишь 20% прироста скорости. Удвоение VRAM всегда выгоднее удвоения частоты.

Подписаться на канал