Оптимизация llama.cpp для RTX 3060 Ti: 20+ токенов/сек на GLM 4.7 | AiManual
AiManual Logo Ai / Manual.
26 Янв 2026 Гайд

3060 Ti против llama.cpp: как выжать 20+ токенов в секунду на карте с 8 ГБ VRAM

Пошаговая настройка llama.cpp для RTX 3060 Ti. Выбираем квантование, настраиваем параметры запуска, добиваемся 20+ токенов/сек на моделях 7B-8B.

Ты скачал свежую модель, запустил с дефолтными настройками и получил 8-9 токенов в секунду. С таким темпом диалог превращается в испытание на прочность. А ведь у тебя 3060 Ti - карта, которая должна тянуть гораздо больше.

Проблема не в железе. Проблема в том, как ты его используешь.

3060 Ti с её 8 ГБ VRAM - это золотая середина для локальных LLM в 2026 году. Достаточно памяти для моделей 7B-8B с хорошим квантованием, достаточно вычислительной мощности для приличной скорости. Но чтобы раскрыть потенциал, нужно понимать три вещи: как работает память видеокарты, как квантование влияет на качество и скорость, и какие флаги запуска действительно работают.

Почему 8 ГБ VRAM - не приговор, а преимущество

Многие считают 8 ГБ недостаточными для серьёзной работы с LLM. На практике это оптимальный объём для моделей размером до 8 миллиардов параметров с квантованием Q5 или Q6. Вся модель помещается в VRAM целиком - никакого своппинга между GPU и RAM, который убивает производительность.

💡
На 3060 Ti с 8 ГБ VRAM можно комфортно работать с моделями до 8B параметров. Для 13B моделей придётся использовать более агрессивное квантование (Q4 или Q3), что скажется на качестве. 7B-8B модели с квантованием Q5_K_XL показывают лучший баланс скорости и качества на этом железе.

1 Выбираем правильную модель и квантование

Первая ошибка - скачивать первую попавшуюся модель. Вторая - выбирать самое лёгкое квантование в надежде на скорость.

На 26.01.2026 актуальные модели для 3060 Ti:

  • GLM 4.7 8B - лучший баланс интеллекта и размера для китайского и английского
  • Llama 3.2 8B - обновлённая архитектура с улучшенным кодингом
  • Qwen 2.5 7B - отличная многоязычная модель с хорошей скоростью
  • DeepSeek Coder 7B - если нужен именно код
Квантование Размер (7B модель) Качество Скорость на 3060 Ti Рекомендация
Q8_0 ~7.5 ГБ Почти без потерь 14-16 ток/с Если качество критично
Q6_K ~5.8 ГБ Минимальные потери 18-20 ток/с Лучший баланс
Q5_K_XL ~4.8 ГБ Хорошее качество 20-24 ток/с Оптимально для 3060 Ti
Q4_K_M ~4.2 ГБ Заметные потери 25-28 ток/с Только для экспериментов

Q5_K_XL - золотая середина. Разница в качестве с Q6_K практически незаметна в большинстве задач, а выигрыш в скорости и памяти существенный. Модель 7B в этом квантовании занимает около 4.8 ГБ, оставляя запас для контекста и системных нужд.

2 Настраиваем llama.cpp: не просто флаги, а понимание

Самый частый вопрос: "Какие флаги добавить для максимальной скорости?" Неправильный вопрос. Нужно спрашивать: "Какой флаг что делает и зачем он мне нужен?"

Вот команда запуска для GLM 4.7 8B Q5_K_XL на 3060 Ti:

./main -m glm-4-7b-q5_k_xl.gguf \
  -ngl 99 \
  -c 8192 \
  -b 512 \
  -t 8 \
  --mlock \
  --no-mmap \
  -n 512 \
  --temp 0.7 \
  --top-k 40 \
  --top-p 0.95 \
  --repeat-penalty 1.1

Разберём каждый флаг:

  • -ngl 99 - загрузить все слои на GPU. Критически важно. 99 означает "сколько влезет", система сама определит максимальное количество слоёв, которые поместятся в VRAM.
  • -c 8192 - размер контекста. 8К - оптимально для большинства задач. Больше - съедает память, меньше - ограничивает модель.
  • -b 512 - размер батча. 512 работает лучше всего на 3060 Ti. Меньше - недогрузка GPU, больше - может не влезть в память.
  • -t 8 - количество потоков CPU. Даже при полной загрузке на GPU, CPU обрабатывает часть операций. 8 потоков - оптимально для большинства систем.

Флаги --mlock и --no-mmap часто упускают. --mlock фиксирует модель в RAM, предотвращая своппинг на диск. --no-mmap отключает memory mapping - модель грузится целиком в память. На системах с 16+ ГБ RAM это ускоряет загрузку модели на 30-40%.

3 Сборка llama.cpp под 3060 Ti: sm_86 или sm_87?

3060 Ti - это архитектура Ampere. Но какая именно версия? Есть две: оригинальная GA104 (sm_86) и обновлённая GA103 (sm_87). Большинство карт - sm_86.

Проверяем:

nvidia-smi --query-gpu=compute_cap --format=csv

Если показывает 8.6 - используем sm_86. Если 8.7 - sm_87. Разница в производительности около 3-5%, но лучше использовать правильную архитектуру.

Команда сборки:

mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release \
  -DLLAMA_CUBLAS=ON \
  -DLLAMA_CUDA_MMVY=1 \
  -DCMAKE_CUDA_ARCHITECTURES=86 \
  -DLLAMA_ACCELERATE=OFF \
  -DLLAMA_METAL=OFF \
  -DLLAMA_MPI=OFF
make -j$(nproc)
💡
Флаг -DLLAMA_CUDA_MMVY=1 включает оптимизацию для матричных умножений через векторные инструкции. На Ampere архитектуре даёт прирост 8-12% по сравнению с отключённым флагом. В llama.cpp версии от 2026 года этот флаг включён по умолчанию, но в более старых сборках его нужно указывать явно.

Оптимизация системы: без этого не будет 20+ токенов

Можно идеально настроить llama.cpp, но если система тормозит сама по себе - результата не будет. Особенно это актуально для Windows, где фоновые процессы любят пожирать ресурсы.

Windows: отключаем всё лишнее

  1. Закрыть все браузеры. Chrome с 10 вкладками может съедать 2-3 ГБ RAM и нагружать GPU через аппаратное ускорение.
  2. Отключить Xbox Game Bar (Win+G). Он висит в фоне и мониторит производительность.
  3. Выставить максимальную производительность в настройках электропитания.
  4. В NVIDIA Control Panel установить "Предпочтительный графический процессор" на "Высокопроизводительный процессор NVIDIA".

Если ты используешь Linux, особенно Ubuntu, то уже в выигрышной позиции. Как показывают тесты в нашей статье "Ubuntu и llama.cpp: почему Linux бьёт все рекорды производительности", разница с Windows может достигать 40-50% на идентичном железе.

Мониторинг: смотрим, что происходит на самом деле

Запускаем модель и сразу открываем:

# Linux
nvidia-smi -l 1

# Или более подробно
nvtop

Смотрим на три метрики:

  • GPU Utilization - должно быть 95-100% во время генерации
  • Memory Usage - не должно быть близко к 8 ГБ. Идеально 6-7 ГБ с запасом
  • Power Draw - 3060 Ti может потреблять до 200 Вт. Если видишь 120-150 Вт - что-то недогружает карту

Реальные цифры: что можно получить на 3060 Ti в 2026

После всех оптимизаций на GLM 4.7 8B Q5_K_XL:

  • Первые токены: 1.2-1.5 секунды (префилл)
  • Скорость генерации: 22-26 токенов в секунду
  • Потребление памяти: 6.2-6.8 ГБ VRAM при контексте 8К
  • Загрузка GPU: 98-100%

На Llama 3.2 8B Q6_K цифры немного скромнее: 18-22 токена в секунду, но качество ответов выше, особенно для кодинга.

Не гонись за максимальными цифрами в бенчмарках. 28 токенов на Q4_K_M звучит впечатляюще, но качество ответов будет заметно хуже. Лучше 22 токена с вменяемыми ответами, чем 28 с ерундой.

Частые ошибки и как их избежать

Ошибка 1: Слишком большой контекст

Хочется поставить -c 32768, чтобы "на будущее". На 3060 Ti с 8 ГБ это убийственно. Каждые 1000 токенов контекста занимают около 2 МБ памяти в зависимости от модели. 32К контекста = дополнительные 64 МБ, плюс overhead для внимания.

Решение: Начинай с 4096. Если нужно больше - увеличивай постепенно, следя за использованием памяти.

Ошибка 2: Неправильное количество слоёв на GPU

Некоторые ставят -ngl 32 или 64, думая, что "остальное CPU доделает". На практике частичная загрузка на GPU создаёт bottleneck на передаче данных между CPU и GPU.

Решение: Всегда -ngl 99. Пусть система сама решит, сколько слоёв поместится.

Ошибка 3: Запуск через обёртки без контроля

Ollama, LM Studio, Faraday - удобно, но ты не контролируешь параметры запуска. Особенно критично для Ollama, которая может показывать в 1.7 раза меньшую скорость по сравнению с нативно настроенным llama.cpp.

Решение: Настрой один раз llama.cpp напрямую, сохрани параметры в скрипт. Потом запускай этим скриптом.

Что дальше? Когда 3060 Ti уже не хватает

Даже идеально оптимизированная 3060 Ti не потянет модели 13B+ с хорошим квантованием. Если нужна большая модель - два пути:

  1. Добавить вторую карту. Но не любую. Нужна совместимая по архитектуре и с поддержкой NVLink (у 3060 Ti его нет). Будет работать через PCIe, что создаст bottleneck. Подробнее о multi-GPU сборках в статье "PCIe 4 vs PCIe 5 для LLM".
  2. Апгрейд на карту с большей VRAM. В 2026 году это RTX 4070 Ti Super с 16 ГБ или RTX 4080 Super с 20 ГБ. Разница в производительности будет в 2-3 раза, но и цена соответствующая.

И последнее: не зацикливайся на токенах в секунду как на единственном метрике. 20 токенов в секунду - это примерно 1200 слов в минуту. Человек читает в 2-3 раза медленнее. Главное - чтобы ответы были качественные, а диалог комфортный. А с правильно настроенной 3060 Ti это вполне достижимо.