Почему все рекомендательные таблицы врут вам в глаза

Открою страшную тайну: 90% таблиц «Модель X требует Y ГБ VRAM» — это чистой воды теоретические расчёты. Они не учитывают контекстное окно, загрузку системы, драйверы, версию llama.cpp и тот факт, что ваш браузер с 50 вкладками уже сожрал 4 ГБ оперативки. Реальность всегда жестче.

Вы скачиваете красивую 13B модель, обещающую работать на 8 ГБ VRAM, запускаете — и получаете OutOfMemory на первом же токене. Знакомо? Это не вы криворукий. Это несоответствие между маркетинговыми цифрами и физикой железа.

Главная ошибка новичка: выбирать модель по максимальному размеру, который «влезает» в память. На деле нужно оставлять запас 20-30% для контекста и работы системы. Модель, занимающая 90% VRAM, будет работать в 2-3 раза медленнее из-за свопинга.

Сначала диагностика, потом скачивание гигабайтов

Прежде чем смотреть на модели, узнайте реальные возможности своего железа. Не те, что в спецификациях, а те, что доступны прямо сейчас.

1 Запустите стресс-тест памяти

# Для NVIDIA
nvidia-smi

# Посмотрите на строку "Memory Usage"
# Запустите нагрузку, чтобы увидеть реальный максимум
stress-ng --vm 1 --vm-bytes 90% --timeout 30s &
nvidia-smi -l 1  # мониторинг каждую секунду

Это покажет, сколько памяти реально доступно после загрузки системы. На Windows с WSL2 вы теряете ещё 1-2 ГБ на overhead.

2 Определите точку перелома производительности

Скорость — не линейная функция. Есть порог, после которого добавление ещё одного слоя модели в VRAM приводит к катастрофическому падению скорости из-за свопинга в RAM.

# Установите llama.cpp и протестируйте с разным количеством слоёв в GPU
./llama-cli -m ./model.q4_K_M.gguf -n 128 --n-gpu-layers 20
./llama-cli -m ./model.q4_K_M.gguf -n 128 --n-gpu-layers 30
./llama-cli -m ./model.q4_K_M.gguf -n 128 --n-gpu-layers 40

Замерьте tokens/sec для каждого запуска. Когда скорость перестаёт расти или начинает падать — вы нашли оптимум для вашей карты.

💡

Для RTX 3090 (24 ГБ) золотая середина — около 18-22 ГБ под модель. Оставшиеся 2-4 ГБ нужны для контекста в 8K-32K токенов. Если планируете работать с длинными документами, резервируйте больше.

Квантование: магия сжатия, которая не должна превращаться в фарш

Квантование — это не просто «сжать модель». Разные методы дают разный баланс между качеством и размером. И да, некоторые действительно превращают модель в беспомощного идиота.

Тип квантования GGUF (2025)	Качество	Размер vs оригинал	Для каких задач
Q2_K	Страдает логика, теряются нюансы	~25%	Только классификация, простые запросы
Q3_K_M	Приемлемо для диалога, страдает код	~37.5%	Чат, пересказ, простой анализ
Q4_K_M	Хороший баланс, код работает	~50%	Универсальное использование
Q5_K_M	Почти без потерь	~62.5%	Кодирование, сложная логика
Q6_K	Минимальные потери	~75%	Исследования, бенчмаркинг
Q8_0	Почти оригинал	~100%	Когда размер не важен

Мой совет: начните с Q4_K_M. Если модель справляется с задачами — отлично. Если нужна большая точность в кодировании — попробуйте Q5_K_M. Q2_K и Q3_K_S оставьте для экспериментов или очень слабого железа.

Методика реалистичного тестирования: не спрашивайте «как дела»

Тестировать модель одним вопросом — всё равно что покупать машину, проехав 50 метров. Нужна система.

1 Тест на «холодном старте»

Запустите модель после перезагрузки, с холодной VRAM. Задайте сложный prompt сразу, без разогрева. Это покажет худший сценарий, с которым вы столкнётесь в реальности.

# Пример промпта для проверки логики и памяти
prompt = """Проанализируй следующую ситуацию и предложи решение:

У нас есть система из 3 микросервисов: A, B, C.
A вызывает B, B вызывает C. Латентность между A-B: 50мс, B-C: 100мс.
При нагрузке в 1000 RPS сервис C начинает отвечать за 2 секунды.
Как диагностировать проблему и какие метрики смотреть в первую очередь?

Объясни пошагово, как если бы инструктировал junior DevOps."""

2 Тест на деградацию контекста

Заполните контекстное окно на 80% техническим текстом (документацией, логами), а затем задайте вопрос по материалу в начале. Качественная модель должна «помнить» начало даже при полном контексте.

Используйте наш сборник промптов для тестирования LLM — там есть готовые сценарии проверки памяти и логики.

3 Бенчмарк скорости с разным контекстом

# Тест с коротким контекстом (512 токенов)
./llama-cli -m model.gguf -p "Краткий запрос" -n 256 -c 512 --temp 0

# Тест с длинным контекстом (8192 токенов)
./llama-cli -m model.gguf -p "$(cat long_document.txt)" -n 256 -c 8192 --temp 0

Сравните tokens/sec. Некоторые модели резко замедляются при большом контексте из-за внимания O(n²).

Что запускать на конкретном железе: реалистичные сценарии на 2025 год

Слабые системы (8-12 ГБ ОЗУ, нет GPU или слабая карта)

Phi-3.5 Mini (4B) Q4_K_M — удивительно умная для своего размера, работает даже на CPU. 2-3 токена/сек на старом i5 — это нормально.
Qwen2.5-Coder (1.5B) Q8_0 — для простого кодирования помощника. Не ждите чудес, но autocomplete для Python работает.
Llama 3.2 (3B) Q4_K_M — базовый чат, простые запросы. Главное преимущество — стабильность.

Не пытайтесь запихнуть 7B модель в 8 ГБ ОЗУ с помощью Q2_K. Будет работать, но качество ответов разочарует.

Средние системы (RTX 3060 12GB, RTX 4060 Ti 16GB)

Llama 3.3 (8B) Q4_K_M — золотой стандарт 2025 года. Влезает с запасом, даёт качественные ответы. Для кодирования берите Q5_K_M.
Qwen2.5 (7B) Q4_K_M — сильный конкурент Llama, особенно для задач на русском.
DeepSeek Coder V3 Lite (7B) Q4_K_M — если нужен именно код. Лучше Llama в программировании, хуже в общих рассуждениях.

На RTX 4060 Ti 16GB можно запустить Llama 3.3 8B в Q8_0 (полное качество) с контекстом 8K. Это один из лучших балансов цена/качество/производительность на начало 2026.

Мощные системы (RTX 3090/4090 24GB, dual GPU)

Llama 3.3 (70B) Q4_K_M — влезает с трудом, но влезает. Около 22-23 ГБ VRAM. Скорость 10-15 токенов/сек — это нормально для такой модели.
Qwen2.5 (32B) Q4_K_M — альтернатива Llama 70B, иногда умнее в рассуждениях. Занимает ~18 ГБ.
DeepSeek Coder V3 (33B) Q4_K_M — лучший выбор для серьёзного кодирования. Сравним с GPT-4 уровня 2019 года.
Mixtral 8x22B (MoE) Q4_K_M — интересная архитектура, активирует только часть параметров. Быстрее, чем плотные 70B модели.

Для RTX 3090 с 24 ГБ есть хак: запустите слой 0-40 в GPU, остальное в RAM. Скорость упадёт, но огромная модель заработает. Подробнее в нашем обзоре фреймворков для локального запуска LLM.

Типичные ошибки, которые сведут на нет все усилия

Ошибка	Последствие	Как исправить
Запуск модели, занимающей 95% VRAM	Свопинг в RAM, падение скорости в 5-10 раз	Оставлять минимум 2-4 ГБ свободными
Использование --n-gpu-layers -1 (все слои в GPU)	Тот же свопинг, даже если модель «влезает»	Указать точное количество слоёв, найденное тестом
Скачивание fp16 вместо GGUF	Модель в 2 раза больше, качество то же	Всегда ищите .gguf в названии
Запуск через обёртку без настройки	Скрытые параметры убивают производительность	Сначала тестируйте через llama-cli, потом настраивайте GUI
Игнорирование температуры (temp)	Творческие задачи при temp=0, технические при temp=0.8	Для кода: temp=0.1-0.2, для чата: 0.7-0.8

Проверенный алгоритм выбора

Определите реальный доступный объём VRAM/RAM (стресс-тест).
Вычтите 20% на контекст и систему.
Найдите модели, которые вписываются в оставшийся объём с квантованием Q4_K_M или Q5_K_M.
Скачайте 2-3 кандидата в минимальном размере (Q2_K для быстрой проверки).
Проведите быстрый тест по методике выше.
Выберите лучшую по качеству, скачайте в оптимальном квантовании.
Настройте количество слоёв в GPU для максимальной скорости.

И последнее: не гонитесь за размером. Llama 3.3 8B в Q4_K_M на RTX 4060 Ti даст вам 30 токенов/сек и качество, которого хватит для 80% задач. А 70B модель на той же карте будет выдавать 3 токена/сек и заставлять вас пить кофе в перерывах между ответами.

Железо — это ограничение, но и инструмент. Правильно подобранная модель на среднем GPU работает приятнее, чем гигантская на пределе возможностей. Начните с малого, проверьте в бою, а потом уже решайте, стоит ли апгрейдить видеокарту или ждать следующего поколения моделей, которые станут умнее при том же размере.

Что будет дальше? К концу 2026 мы увидим 8B модели, которые по качеству догонят сегодняшние 70B. Архитектуры типа MoE станут стандартом. А квантование научится сохранять 99% качества при 30% размера. Ваша сегодняшняя видеокарта — это не ограничение, а платформа для экспериментов. Главное — экспериментировать с умом.

Ваша видеокарта — не бездонная бочка: как выбрать локальную LLM, которая не взорвёт память и не уснёт на полуслове