Какое квантование лучше для RTX 3060 Ti?

Q5_K_XL - оптимальный выбор. Занимает около 4.8 ГБ для модели 7B, оставляя запас для контекста. Качество близко к Q6_K, скорость выше.

Почему скорость падает при длинных диалогах?

С увеличением контекста растёт использование памяти и вычислительная сложность операций внимания. Рекомендуемый размер контекста для 3060 Ti - 4096-8192 токенов.

Можно ли запускать модели 13B на 3060 Ti?

Только с агрессивным квантованием (Q3_K_S, Q2_K), что сильно снижает качество. Для 13B+ моделей рекомендуется карта с 12+ ГБ VRAM.

Какая разница в скорости между Windows и Linux?

На Ubuntu скорость может быть на 30-50% выше благодаря более эффективному доступу к железу и оптимизированному компилятору GCC.

Оптимизация llama.cpp для RTX 3060 Ti: 20+ токенов/сек на GLM 4.7

Ты скачал свежую модель, запустил с дефолтными настройками и получил 8-9 токенов в секунду. С таким темпом диалог превращается в испытание на прочность. А ведь у тебя 3060 Ti - карта, которая должна тянуть гораздо больше.

Проблема не в железе. Проблема в том, как ты его используешь.

3060 Ti с её 8 ГБ VRAM - это золотая середина для локальных LLM в 2026 году. Достаточно памяти для моделей 7B-8B с хорошим квантованием, достаточно вычислительной мощности для приличной скорости. Но чтобы раскрыть потенциал, нужно понимать три вещи: как работает память видеокарты, как квантование влияет на качество и скорость, и какие флаги запуска действительно работают.

Почему 8 ГБ VRAM - не приговор, а преимущество

Многие считают 8 ГБ недостаточными для серьёзной работы с LLM. На практике это оптимальный объём для моделей размером до 8 миллиардов параметров с квантованием Q5 или Q6. Вся модель помещается в VRAM целиком - никакого своппинга между GPU и RAM, который убивает производительность.

💡

На 3060 Ti с 8 ГБ VRAM можно комфортно работать с моделями до 8B параметров. Для 13B моделей придётся использовать более агрессивное квантование (Q4 или Q3), что скажется на качестве. 7B-8B модели с квантованием Q5_K_XL показывают лучший баланс скорости и качества на этом железе.

1 Выбираем правильную модель и квантование

Первая ошибка - скачивать первую попавшуюся модель. Вторая - выбирать самое лёгкое квантование в надежде на скорость.

На 26.01.2026 актуальные модели для 3060 Ti:

GLM 4.7 8B - лучший баланс интеллекта и размера для китайского и английского
Llama 3.2 8B - обновлённая архитектура с улучшенным кодингом
Qwen 2.5 7B - отличная многоязычная модель с хорошей скоростью
DeepSeek Coder 7B - если нужен именно код

Квантование	Размер (7B модель)	Качество	Скорость на 3060 Ti	Рекомендация
Q8_0	~7.5 ГБ	Почти без потерь	14-16 ток/с	Если качество критично
Q6_K	~5.8 ГБ	Минимальные потери	18-20 ток/с	Лучший баланс
Q5_K_XL	~4.8 ГБ	Хорошее качество	20-24 ток/с	Оптимально для 3060 Ti
Q4_K_M	~4.2 ГБ	Заметные потери	25-28 ток/с	Только для экспериментов

Q5_K_XL - золотая середина. Разница в качестве с Q6_K практически незаметна в большинстве задач, а выигрыш в скорости и памяти существенный. Модель 7B в этом квантовании занимает около 4.8 ГБ, оставляя запас для контекста и системных нужд.

2 Настраиваем llama.cpp: не просто флаги, а понимание

Самый частый вопрос: "Какие флаги добавить для максимальной скорости?" Неправильный вопрос. Нужно спрашивать: "Какой флаг что делает и зачем он мне нужен?"

Вот команда запуска для GLM 4.7 8B Q5_K_XL на 3060 Ti:

./main -m glm-4-7b-q5_k_xl.gguf \
  -ngl 99 \
  -c 8192 \
  -b 512 \
  -t 8 \
  --mlock \
  --no-mmap \
  -n 512 \
  --temp 0.7 \
  --top-k 40 \
  --top-p 0.95 \
  --repeat-penalty 1.1

Разберём каждый флаг:

-ngl 99 - загрузить все слои на GPU. Критически важно. 99 означает "сколько влезет", система сама определит максимальное количество слоёв, которые поместятся в VRAM.
-c 8192 - размер контекста. 8К - оптимально для большинства задач. Больше - съедает память, меньше - ограничивает модель.
-b 512 - размер батча. 512 работает лучше всего на 3060 Ti. Меньше - недогрузка GPU, больше - может не влезть в память.
-t 8 - количество потоков CPU. Даже при полной загрузке на GPU, CPU обрабатывает часть операций. 8 потоков - оптимально для большинства систем.

Флаги --mlock и --no-mmap часто упускают. --mlock фиксирует модель в RAM, предотвращая своппинг на диск. --no-mmap отключает memory mapping - модель грузится целиком в память. На системах с 16+ ГБ RAM это ускоряет загрузку модели на 30-40%.

3 Сборка llama.cpp под 3060 Ti: sm_86 или sm_87?

3060 Ti - это архитектура Ampere. Но какая именно версия? Есть две: оригинальная GA104 (sm_86) и обновлённая GA103 (sm_87). Большинство карт - sm_86.

Проверяем:

nvidia-smi --query-gpu=compute_cap --format=csv

Если показывает 8.6 - используем sm_86. Если 8.7 - sm_87. Разница в производительности около 3-5%, но лучше использовать правильную архитектуру.

Команда сборки:

mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release \
  -DLLAMA_CUBLAS=ON \
  -DLLAMA_CUDA_MMVY=1 \
  -DCMAKE_CUDA_ARCHITECTURES=86 \
  -DLLAMA_ACCELERATE=OFF \
  -DLLAMA_METAL=OFF \
  -DLLAMA_MPI=OFF
make -j$(nproc)

💡

Флаг -DLLAMA_CUDA_MMVY=1 включает оптимизацию для матричных умножений через векторные инструкции. На Ampere архитектуре даёт прирост 8-12% по сравнению с отключённым флагом. В llama.cpp версии от 2026 года этот флаг включён по умолчанию, но в более старых сборках его нужно указывать явно.

Оптимизация системы: без этого не будет 20+ токенов

Можно идеально настроить llama.cpp, но если система тормозит сама по себе - результата не будет. Особенно это актуально для Windows, где фоновые процессы любят пожирать ресурсы.

Windows: отключаем всё лишнее

Закрыть все браузеры. Chrome с 10 вкладками может съедать 2-3 ГБ RAM и нагружать GPU через аппаратное ускорение.
Отключить Xbox Game Bar (Win+G). Он висит в фоне и мониторит производительность.
Выставить максимальную производительность в настройках электропитания.
В NVIDIA Control Panel установить "Предпочтительный графический процессор" на "Высокопроизводительный процессор NVIDIA".

Если ты используешь Linux, особенно Ubuntu, то уже в выигрышной позиции. Как показывают тесты в нашей статье "Ubuntu и llama.cpp: почему Linux бьёт все рекорды производительности", разница с Windows может достигать 40-50% на идентичном железе.

Мониторинг: смотрим, что происходит на самом деле

Запускаем модель и сразу открываем:

# Linux
nvidia-smi -l 1

# Или более подробно
nvtop

Смотрим на три метрики:

GPU Utilization - должно быть 95-100% во время генерации
Memory Usage - не должно быть близко к 8 ГБ. Идеально 6-7 ГБ с запасом
Power Draw - 3060 Ti может потреблять до 200 Вт. Если видишь 120-150 Вт - что-то недогружает карту

Реальные цифры: что можно получить на 3060 Ti в 2026

После всех оптимизаций на GLM 4.7 8B Q5_K_XL:

Первые токены: 1.2-1.5 секунды (префилл)
Скорость генерации: 22-26 токенов в секунду
Потребление памяти: 6.2-6.8 ГБ VRAM при контексте 8К
Загрузка GPU: 98-100%

На Llama 3.2 8B Q6_K цифры немного скромнее: 18-22 токена в секунду, но качество ответов выше, особенно для кодинга.

Не гонись за максимальными цифрами в бенчмарках. 28 токенов на Q4_K_M звучит впечатляюще, но качество ответов будет заметно хуже. Лучше 22 токена с вменяемыми ответами, чем 28 с ерундой.

Частые ошибки и как их избежать

Ошибка 1: Слишком большой контекст

Хочется поставить -c 32768, чтобы "на будущее". На 3060 Ti с 8 ГБ это убийственно. Каждые 1000 токенов контекста занимают около 2 МБ памяти в зависимости от модели. 32К контекста = дополнительные 64 МБ, плюс overhead для внимания.

Решение: Начинай с 4096. Если нужно больше - увеличивай постепенно, следя за использованием памяти.

Ошибка 2: Неправильное количество слоёв на GPU

Некоторые ставят -ngl 32 или 64, думая, что "остальное CPU доделает". На практике частичная загрузка на GPU создаёт bottleneck на передаче данных между CPU и GPU.

Решение: Всегда -ngl 99. Пусть система сама решит, сколько слоёв поместится.

Ошибка 3: Запуск через обёртки без контроля

Ollama, LM Studio, Faraday - удобно, но ты не контролируешь параметры запуска. Особенно критично для Ollama, которая может показывать в 1.7 раза меньшую скорость по сравнению с нативно настроенным llama.cpp.

Решение: Настрой один раз llama.cpp напрямую, сохрани параметры в скрипт. Потом запускай этим скриптом.

Что дальше? Когда 3060 Ti уже не хватает

Даже идеально оптимизированная 3060 Ti не потянет модели 13B+ с хорошим квантованием. Если нужна большая модель - два пути:

Добавить вторую карту. Но не любую. Нужна совместимая по архитектуре и с поддержкой NVLink (у 3060 Ti его нет). Будет работать через PCIe, что создаст bottleneck. Подробнее о multi-GPU сборках в статье "PCIe 4 vs PCIe 5 для LLM".
Апгрейд на карту с большей VRAM. В 2026 году это RTX 4070 Ti Super с 16 ГБ или RTX 4080 Super с 20 ГБ. Разница в производительности будет в 2-3 раза, но и цена соответствующая.

И последнее: не зацикливайся на токенах в секунду как на единственном метрике. 20 токенов в секунду - это примерно 1200 слов в минуту. Человек читает в 2-3 раза медленнее. Главное - чтобы ответы были качественные, а диалог комфортный. А с правильно настроенной 3060 Ti это вполне достижимо.

3060 Ti против llama.cpp: как выжать 20+ токенов в секунду на карте с 8 ГБ VRAM