Почему все рекомендательные таблицы врут вам в глаза
Открою страшную тайну: 90% таблиц «Модель X требует Y ГБ VRAM» — это чистой воды теоретические расчёты. Они не учитывают контекстное окно, загрузку системы, драйверы, версию llama.cpp и тот факт, что ваш браузер с 50 вкладками уже сожрал 4 ГБ оперативки. Реальность всегда жестче.
Вы скачиваете красивую 13B модель, обещающую работать на 8 ГБ VRAM, запускаете — и получаете OutOfMemory на первом же токене. Знакомо? Это не вы криворукий. Это несоответствие между маркетинговыми цифрами и физикой железа.
Главная ошибка новичка: выбирать модель по максимальному размеру, который «влезает» в память. На деле нужно оставлять запас 20-30% для контекста и работы системы. Модель, занимающая 90% VRAM, будет работать в 2-3 раза медленнее из-за свопинга.
Сначала диагностика, потом скачивание гигабайтов
Прежде чем смотреть на модели, узнайте реальные возможности своего железа. Не те, что в спецификациях, а те, что доступны прямо сейчас.
1 Запустите стресс-тест памяти
# Для NVIDIA
nvidia-smi
# Посмотрите на строку "Memory Usage"
# Запустите нагрузку, чтобы увидеть реальный максимум
stress-ng --vm 1 --vm-bytes 90% --timeout 30s &
nvidia-smi -l 1 # мониторинг каждую секунду
Это покажет, сколько памяти реально доступно после загрузки системы. На Windows с WSL2 вы теряете ещё 1-2 ГБ на overhead.
2 Определите точку перелома производительности
Скорость — не линейная функция. Есть порог, после которого добавление ещё одного слоя модели в VRAM приводит к катастрофическому падению скорости из-за свопинга в RAM.
# Установите llama.cpp и протестируйте с разным количеством слоёв в GPU
./llama-cli -m ./model.q4_K_M.gguf -n 128 --n-gpu-layers 20
./llama-cli -m ./model.q4_K_M.gguf -n 128 --n-gpu-layers 30
./llama-cli -m ./model.q4_K_M.gguf -n 128 --n-gpu-layers 40
Замерьте tokens/sec для каждого запуска. Когда скорость перестаёт расти или начинает падать — вы нашли оптимум для вашей карты.
Квантование: магия сжатия, которая не должна превращаться в фарш
Квантование — это не просто «сжать модель». Разные методы дают разный баланс между качеством и размером. И да, некоторые действительно превращают модель в беспомощного идиота.
| Тип квантования GGUF (2025) | Качество | Размер vs оригинал | Для каких задач |
|---|---|---|---|
| Q2_K | Страдает логика, теряются нюансы | ~25% | Только классификация, простые запросы |
| Q3_K_M | Приемлемо для диалога, страдает код | ~37.5% | Чат, пересказ, простой анализ |
| Q4_K_M | Хороший баланс, код работает | ~50% | Универсальное использование |
| Q5_K_M | Почти без потерь | ~62.5% | Кодирование, сложная логика |
| Q6_K | Минимальные потери | ~75% | Исследования, бенчмаркинг |
| Q8_0 | Почти оригинал | ~100% | Когда размер не важен |
Мой совет: начните с Q4_K_M. Если модель справляется с задачами — отлично. Если нужна большая точность в кодировании — попробуйте Q5_K_M. Q2_K и Q3_K_S оставьте для экспериментов или очень слабого железа.
Методика реалистичного тестирования: не спрашивайте «как дела»
Тестировать модель одним вопросом — всё равно что покупать машину, проехав 50 метров. Нужна система.
1 Тест на «холодном старте»
Запустите модель после перезагрузки, с холодной VRAM. Задайте сложный prompt сразу, без разогрева. Это покажет худший сценарий, с которым вы столкнётесь в реальности.
# Пример промпта для проверки логики и памяти
prompt = """Проанализируй следующую ситуацию и предложи решение:
У нас есть система из 3 микросервисов: A, B, C.
A вызывает B, B вызывает C. Латентность между A-B: 50мс, B-C: 100мс.
При нагрузке в 1000 RPS сервис C начинает отвечать за 2 секунды.
Как диагностировать проблему и какие метрики смотреть в первую очередь?
Объясни пошагово, как если бы инструктировал junior DevOps."""
2 Тест на деградацию контекста
Заполните контекстное окно на 80% техническим текстом (документацией, логами), а затем задайте вопрос по материалу в начале. Качественная модель должна «помнить» начало даже при полном контексте.
Используйте наш сборник промптов для тестирования LLM — там есть готовые сценарии проверки памяти и логики.
3 Бенчмарк скорости с разным контекстом
# Тест с коротким контекстом (512 токенов)
./llama-cli -m model.gguf -p "Краткий запрос" -n 256 -c 512 --temp 0
# Тест с длинным контекстом (8192 токенов)
./llama-cli -m model.gguf -p "$(cat long_document.txt)" -n 256 -c 8192 --temp 0
Сравните tokens/sec. Некоторые модели резко замедляются при большом контексте из-за внимания O(n²).
Что запускать на конкретном железе: реалистичные сценарии на 2025 год
Слабые системы (8-12 ГБ ОЗУ, нет GPU или слабая карта)
- Phi-3.5 Mini (4B) Q4_K_M — удивительно умная для своего размера, работает даже на CPU. 2-3 токена/сек на старом i5 — это нормально.
- Qwen2.5-Coder (1.5B) Q8_0 — для простого кодирования помощника. Не ждите чудес, но autocomplete для Python работает.
- Llama 3.2 (3B) Q4_K_M — базовый чат, простые запросы. Главное преимущество — стабильность.
Не пытайтесь запихнуть 7B модель в 8 ГБ ОЗУ с помощью Q2_K. Будет работать, но качество ответов разочарует.
Средние системы (RTX 3060 12GB, RTX 4060 Ti 16GB)
- Llama 3.3 (8B) Q4_K_M — золотой стандарт 2025 года. Влезает с запасом, даёт качественные ответы. Для кодирования берите Q5_K_M.
- Qwen2.5 (7B) Q4_K_M — сильный конкурент Llama, особенно для задач на русском.
- DeepSeek Coder V3 Lite (7B) Q4_K_M — если нужен именно код. Лучше Llama в программировании, хуже в общих рассуждениях.
На RTX 4060 Ti 16GB можно запустить Llama 3.3 8B в Q8_0 (полное качество) с контекстом 8K. Это один из лучших балансов цена/качество/производительность на начало 2026.
Мощные системы (RTX 3090/4090 24GB, dual GPU)
- Llama 3.3 (70B) Q4_K_M — влезает с трудом, но влезает. Около 22-23 ГБ VRAM. Скорость 10-15 токенов/сек — это нормально для такой модели.
- Qwen2.5 (32B) Q4_K_M — альтернатива Llama 70B, иногда умнее в рассуждениях. Занимает ~18 ГБ.
- DeepSeek Coder V3 (33B) Q4_K_M — лучший выбор для серьёзного кодирования. Сравним с GPT-4 уровня 2019 года.
- Mixtral 8x22B (MoE) Q4_K_M — интересная архитектура, активирует только часть параметров. Быстрее, чем плотные 70B модели.
Для RTX 3090 с 24 ГБ есть хак: запустите слой 0-40 в GPU, остальное в RAM. Скорость упадёт, но огромная модель заработает. Подробнее в нашем обзоре фреймворков для локального запуска LLM.
Типичные ошибки, которые сведут на нет все усилия
| Ошибка | Последствие | Как исправить |
|---|---|---|
| Запуск модели, занимающей 95% VRAM | Свопинг в RAM, падение скорости в 5-10 раз | Оставлять минимум 2-4 ГБ свободными |
| Использование --n-gpu-layers -1 (все слои в GPU) | Тот же свопинг, даже если модель «влезает» | Указать точное количество слоёв, найденное тестом |
| Скачивание fp16 вместо GGUF | Модель в 2 раза больше, качество то же | Всегда ищите .gguf в названии |
| Запуск через обёртку без настройки | Скрытые параметры убивают производительность | Сначала тестируйте через llama-cli, потом настраивайте GUI |
| Игнорирование температуры (temp) | Творческие задачи при temp=0, технические при temp=0.8 | Для кода: temp=0.1-0.2, для чата: 0.7-0.8 |
Проверенный алгоритм выбора
- Определите реальный доступный объём VRAM/RAM (стресс-тест).
- Вычтите 20% на контекст и систему.
- Найдите модели, которые вписываются в оставшийся объём с квантованием Q4_K_M или Q5_K_M.
- Скачайте 2-3 кандидата в минимальном размере (Q2_K для быстрой проверки).
- Проведите быстрый тест по методике выше.
- Выберите лучшую по качеству, скачайте в оптимальном квантовании.
- Настройте количество слоёв в GPU для максимальной скорости.
И последнее: не гонитесь за размером. Llama 3.3 8B в Q4_K_M на RTX 4060 Ti даст вам 30 токенов/сек и качество, которого хватит для 80% задач. А 70B модель на той же карте будет выдавать 3 токена/сек и заставлять вас пить кофе в перерывах между ответами.
Железо — это ограничение, но и инструмент. Правильно подобранная модель на среднем GPU работает приятнее, чем гигантская на пределе возможностей. Начните с малого, проверьте в бою, а потом уже решайте, стоит ли апгрейдить видеокарту или ждать следующего поколения моделей, которые станут умнее при том же размере.
Что будет дальше? К концу 2026 мы увидим 8B модели, которые по качеству догонят сегодняшние 70B. Архитектуры типа MoE станут стандартом. А квантование научится сохранять 99% качества при 30% размера. Ваша сегодняшняя видеокарта — это не ограничение, а платформа для экспериментов. Главное — экспериментировать с умом.