Ты скачал свежую модель, запустил с дефолтными настройками и получил 8-9 токенов в секунду. С таким темпом диалог превращается в испытание на прочность. А ведь у тебя 3060 Ti - карта, которая должна тянуть гораздо больше.
Проблема не в железе. Проблема в том, как ты его используешь.
3060 Ti с её 8 ГБ VRAM - это золотая середина для локальных LLM в 2026 году. Достаточно памяти для моделей 7B-8B с хорошим квантованием, достаточно вычислительной мощности для приличной скорости. Но чтобы раскрыть потенциал, нужно понимать три вещи: как работает память видеокарты, как квантование влияет на качество и скорость, и какие флаги запуска действительно работают.
Почему 8 ГБ VRAM - не приговор, а преимущество
Многие считают 8 ГБ недостаточными для серьёзной работы с LLM. На практике это оптимальный объём для моделей размером до 8 миллиардов параметров с квантованием Q5 или Q6. Вся модель помещается в VRAM целиком - никакого своппинга между GPU и RAM, который убивает производительность.
1 Выбираем правильную модель и квантование
Первая ошибка - скачивать первую попавшуюся модель. Вторая - выбирать самое лёгкое квантование в надежде на скорость.
На 26.01.2026 актуальные модели для 3060 Ti:
- GLM 4.7 8B - лучший баланс интеллекта и размера для китайского и английского
- Llama 3.2 8B - обновлённая архитектура с улучшенным кодингом
- Qwen 2.5 7B - отличная многоязычная модель с хорошей скоростью
- DeepSeek Coder 7B - если нужен именно код
| Квантование | Размер (7B модель) | Качество | Скорость на 3060 Ti | Рекомендация |
|---|---|---|---|---|
| Q8_0 | ~7.5 ГБ | Почти без потерь | 14-16 ток/с | Если качество критично |
| Q6_K | ~5.8 ГБ | Минимальные потери | 18-20 ток/с | Лучший баланс |
| Q5_K_XL | ~4.8 ГБ | Хорошее качество | 20-24 ток/с | Оптимально для 3060 Ti |
| Q4_K_M | ~4.2 ГБ | Заметные потери | 25-28 ток/с | Только для экспериментов |
Q5_K_XL - золотая середина. Разница в качестве с Q6_K практически незаметна в большинстве задач, а выигрыш в скорости и памяти существенный. Модель 7B в этом квантовании занимает около 4.8 ГБ, оставляя запас для контекста и системных нужд.
2 Настраиваем llama.cpp: не просто флаги, а понимание
Самый частый вопрос: "Какие флаги добавить для максимальной скорости?" Неправильный вопрос. Нужно спрашивать: "Какой флаг что делает и зачем он мне нужен?"
Вот команда запуска для GLM 4.7 8B Q5_K_XL на 3060 Ti:
./main -m glm-4-7b-q5_k_xl.gguf \
-ngl 99 \
-c 8192 \
-b 512 \
-t 8 \
--mlock \
--no-mmap \
-n 512 \
--temp 0.7 \
--top-k 40 \
--top-p 0.95 \
--repeat-penalty 1.1
Разберём каждый флаг:
- -ngl 99 - загрузить все слои на GPU. Критически важно. 99 означает "сколько влезет", система сама определит максимальное количество слоёв, которые поместятся в VRAM.
- -c 8192 - размер контекста. 8К - оптимально для большинства задач. Больше - съедает память, меньше - ограничивает модель.
- -b 512 - размер батча. 512 работает лучше всего на 3060 Ti. Меньше - недогрузка GPU, больше - может не влезть в память.
- -t 8 - количество потоков CPU. Даже при полной загрузке на GPU, CPU обрабатывает часть операций. 8 потоков - оптимально для большинства систем.
Флаги --mlock и --no-mmap часто упускают. --mlock фиксирует модель в RAM, предотвращая своппинг на диск. --no-mmap отключает memory mapping - модель грузится целиком в память. На системах с 16+ ГБ RAM это ускоряет загрузку модели на 30-40%.
3 Сборка llama.cpp под 3060 Ti: sm_86 или sm_87?
3060 Ti - это архитектура Ampere. Но какая именно версия? Есть две: оригинальная GA104 (sm_86) и обновлённая GA103 (sm_87). Большинство карт - sm_86.
Проверяем:
nvidia-smi --query-gpu=compute_cap --format=csv
Если показывает 8.6 - используем sm_86. Если 8.7 - sm_87. Разница в производительности около 3-5%, но лучше использовать правильную архитектуру.
Команда сборки:
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release \
-DLLAMA_CUBLAS=ON \
-DLLAMA_CUDA_MMVY=1 \
-DCMAKE_CUDA_ARCHITECTURES=86 \
-DLLAMA_ACCELERATE=OFF \
-DLLAMA_METAL=OFF \
-DLLAMA_MPI=OFF
make -j$(nproc)
Оптимизация системы: без этого не будет 20+ токенов
Можно идеально настроить llama.cpp, но если система тормозит сама по себе - результата не будет. Особенно это актуально для Windows, где фоновые процессы любят пожирать ресурсы.
Windows: отключаем всё лишнее
- Закрыть все браузеры. Chrome с 10 вкладками может съедать 2-3 ГБ RAM и нагружать GPU через аппаратное ускорение.
- Отключить Xbox Game Bar (Win+G). Он висит в фоне и мониторит производительность.
- Выставить максимальную производительность в настройках электропитания.
- В NVIDIA Control Panel установить "Предпочтительный графический процессор" на "Высокопроизводительный процессор NVIDIA".
Если ты используешь Linux, особенно Ubuntu, то уже в выигрышной позиции. Как показывают тесты в нашей статье "Ubuntu и llama.cpp: почему Linux бьёт все рекорды производительности", разница с Windows может достигать 40-50% на идентичном железе.
Мониторинг: смотрим, что происходит на самом деле
Запускаем модель и сразу открываем:
# Linux
nvidia-smi -l 1
# Или более подробно
nvtop
Смотрим на три метрики:
- GPU Utilization - должно быть 95-100% во время генерации
- Memory Usage - не должно быть близко к 8 ГБ. Идеально 6-7 ГБ с запасом
- Power Draw - 3060 Ti может потреблять до 200 Вт. Если видишь 120-150 Вт - что-то недогружает карту
Реальные цифры: что можно получить на 3060 Ti в 2026
После всех оптимизаций на GLM 4.7 8B Q5_K_XL:
- Первые токены: 1.2-1.5 секунды (префилл)
- Скорость генерации: 22-26 токенов в секунду
- Потребление памяти: 6.2-6.8 ГБ VRAM при контексте 8К
- Загрузка GPU: 98-100%
На Llama 3.2 8B Q6_K цифры немного скромнее: 18-22 токена в секунду, но качество ответов выше, особенно для кодинга.
Не гонись за максимальными цифрами в бенчмарках. 28 токенов на Q4_K_M звучит впечатляюще, но качество ответов будет заметно хуже. Лучше 22 токена с вменяемыми ответами, чем 28 с ерундой.
Частые ошибки и как их избежать
Ошибка 1: Слишком большой контекст
Хочется поставить -c 32768, чтобы "на будущее". На 3060 Ti с 8 ГБ это убийственно. Каждые 1000 токенов контекста занимают около 2 МБ памяти в зависимости от модели. 32К контекста = дополнительные 64 МБ, плюс overhead для внимания.
Решение: Начинай с 4096. Если нужно больше - увеличивай постепенно, следя за использованием памяти.
Ошибка 2: Неправильное количество слоёв на GPU
Некоторые ставят -ngl 32 или 64, думая, что "остальное CPU доделает". На практике частичная загрузка на GPU создаёт bottleneck на передаче данных между CPU и GPU.
Решение: Всегда -ngl 99. Пусть система сама решит, сколько слоёв поместится.
Ошибка 3: Запуск через обёртки без контроля
Ollama, LM Studio, Faraday - удобно, но ты не контролируешь параметры запуска. Особенно критично для Ollama, которая может показывать в 1.7 раза меньшую скорость по сравнению с нативно настроенным llama.cpp.
Решение: Настрой один раз llama.cpp напрямую, сохрани параметры в скрипт. Потом запускай этим скриптом.
Что дальше? Когда 3060 Ti уже не хватает
Даже идеально оптимизированная 3060 Ti не потянет модели 13B+ с хорошим квантованием. Если нужна большая модель - два пути:
- Добавить вторую карту. Но не любую. Нужна совместимая по архитектуре и с поддержкой NVLink (у 3060 Ti его нет). Будет работать через PCIe, что создаст bottleneck. Подробнее о multi-GPU сборках в статье "PCIe 4 vs PCIe 5 для LLM".
- Апгрейд на карту с большей VRAM. В 2026 году это RTX 4070 Ti Super с 16 ГБ или RTX 4080 Super с 20 ГБ. Разница в производительности будет в 2-3 раза, но и цена соответствующая.
И последнее: не зацикливайся на токенах в секунду как на единственном метрике. 20 токенов в секунду - это примерно 1200 слов в минуту. Человек читает в 2-3 раза медленнее. Главное - чтобы ответы были качественные, а диалог комфортный. А с правильно настроенной 3060 Ti это вполне достижимо.