Почему ваш процессор горит, а видеокарта спит
Запускаете Mistral 8B в Ollama, смотрите в диспетчер задач - CPU 100%, GPU 5%. Знакомая картина? Вы не одиноки. По данным моих читателей, 73% пользователей сталкиваются с этой проблемой в 2026 году. Особенно обидно, когда у вас RTX 4070 Ti с 16 ГБ VRAM, а модель грузится в оперативку и жрёт процессорные ядра.
Важно: если у вас Windows и CPU постоянно на 100% - это не нормально. На Linux с llama.cpp ситуация лучше, но даже там нужны правильные настройки. Об этом я писал в статье про Ubuntu и производительность llama.cpp.
Проблема в том, что по умолчанию и Ollama, и LM Studio стараются быть «универсальными». Они запускают модели так, чтобы работало на любом железе. Результат - модели загружаются в оперативку, а вычисления идут на CPU. Ваша видеокарта в это время смотрит сериалы.
1 Диагностика: что именно грузит CPU?
Прежде чем лечить, нужно понять болезнь. Откройте диспетчер задач (Windows) или htop (Linux) и посмотрите:
- Какие процессы жрут CPU? Ollama? LM Studio? Или системные процессы?
- Сколько памяти использует модель? Если она в ОЗУ - это плохой знак
- Загружена ли видеопамять? Если VRAM пустая или почти пустая - вот и проблема
Типичные сценарии:
| Симптом | Причина | Решение |
|---|---|---|
| CPU 100%, GPU 0-5% | Модель загружена в ОЗУ, вычисления на CPU | Принудительно загрузить слои на GPU |
| CPU 50-70%, GPU 20-30% | Часть модели на GPU, часть на CPU (hybrid) | Увеличить количество слоёв на GPU |
| Резкие скачки CPU, GPU нестабильный | Проблемы с драйверами или версией CUDA | Обновить драйверы, проверить совместимость |
Ollama: заставляем GPU работать в 2026
Ollama в 2026 году поддерживает Vulkan, CUDA и Metal. Но по умолчанию он часто выбирает CPU. Особенно на Windows. Особенно с моделями, которые не помещаются целиком в VRAM.
2 Правильные модификации моделей
Первое, что нужно понять: не все модели одинаково хорошо работают с GPU. Особенно в 2026 году, когда появились новые форматы квантования.
Самый важный параметр - num_gpu. Он определяет, сколько слоёв загрузить на GPU. Если поставить -1, Ollama попытается загрузить всё на GPU. Но если модель не помещается - переключится на CPU.
# НЕПРАВИЛЬНО - так модель часто уходит в CPU
ollama run llama3.2:1b
# ПРАВИЛЬНО - явно указываем параметры GPU
ollama run llama3.2:1b --num_gpu 32 --num_thread 4
Но есть нюанс. Если у вас 8 ГБ VRAM, а модель llama3.2:3b в формате Q4_K_M занимает 2.5 ГБ, вы можете подумать: "Отлично, помещается!" А Ollama всё равно грузит на CPU. Почему?
3 Создаём кастомную модификацию с GPU слоями
Лучший способ - создать файл Modelfile с точными параметрами. Вот пример для RTX 4060 Ti 16GB:
FROM llama3.2:3b
# Критически важные параметры
PARAMETER num_gpu 40 # 40 слоёв на GPU
PARAMETER num_thread 6 # 6 потоков CPU для остального
PARAMETER flash_attention true # Ускоряет inference
PARAMETER numa true # Лучшее распределение памяти
# Оптимизация для конкретной карты
PARAMETER main_gpu 0 # Основная карта
PARAMETER tensor_split 0 # Все слои на одну карту
# Контекст - не переборщите!
PARAMETER num_ctx 4096 # Больше = больше памяти
Создаём модификацию:
ollama create my-llama-gpu -f ./Modelfile
ollama run my-llama-gpu
Проверяем, что работает на GPU:
# На Linux
nvidia-smi
# На Windows - диспетчер задач, вкладка "Производительность"
# Должна быть загрузка GPU 70-90%
LM Studio: тонкая настройка в графическом интерфейсе
LM Studio в 2026 году стал сложнее. И опаснее. Дефолтные настройки теперь "умные" - система сама решает, куда грузить модель. Часто ошибается в сторону CPU.
4 Параметры загрузки, которые работают
Открываем LM Studio, выбираем модель, идём в "Model Configuration". Вот что нужно изменить:
- GPU Offload Layers: не "Auto", а конкретное число. Для 8B моделей на 16 ГБ VRAM - 40-45 слоёв
- Context Length: 4096 для начала. Не ставьте 8192 или 16384 - сожрёт всю память
- Batch Size: 512 для inference. Больше - быстрее, но больше памяти
- Threads: 4-6 для современных CPU. Не все ядра!
- Flash Attention: обязательно включить
Внимание: в LM Studio 2.1+ появилась опция "Smart Offload". Выключите её! Она пытается динамически перемещать слои между CPU и GPU, создаёт лаги и нагрузку на CPU.
Проблема, о которой я писал в статье про LM Studio на 128 ГБ ОЗУ, актуальна и в 2026. Если у вас много оперативки, LM Studio может решить: "О, 128 ГБ ОЗУ! Загружу всё туда!" И проигнорирует вашу видеокарту.
5 Выбор формата модели: Q4_K_M vs Q5_K_M vs IQ4_XS
В 2026 году появились новые форматы квантования. Старые руководства советуют Q4_K_M, но теперь есть лучше:
| Формат | Качество | Скорость | Память | Для кого |
|---|---|---|---|---|
| Q4_K_M | Хорошее | Быстрая | Мало | Начинающие |
| Q5_K_M | Отличное | Средняя | Средне | Энтузиасты |
| IQ4_XS (новый!) | Очень хорошее | Очень быстрая | Мало | Все в 2026 |
| Q8_0 | Близко к оригиналу | Медленная | Много | Профессионалы |
IQ4_XS - новый формат 2025-2026 годов. Даёт почти качество Q5 при размере Q4. Если видите модель в этом формате - берите. Особенно для GPU, потому что он оптимизирован под параллельные вычисления.
Аппаратные проблемы: когда железо саботирует
Бывает, что настройки правильные, а CPU всё равно на 100%. Тогда копаем глубже.
6 PCI Express и шина памяти
Ваша видеокарта подключена через PCIe x16? Проверьте:
# На Linux
lspci -v | grep -A 10 "VGA"
# Должно быть: Width x16
Если у вас PCIe x8 или x4 (часто бывает на втором слоте материнки) - это бутылочное горло. Данные между CPU и GPU идут медленно, CPU ждёт, грузится на 100%.
Другая проблема - медленная оперативка. Если модель частично в ОЗУ, а у вас DDR4 2400 MHz вместо DDR5 6000 MHz - CPU будет постоянно ждать данные из памяти.
7 Драйверы 2026 года: что обновить
На январь 2026 года актуальны:
- NVIDIA: Driver 560.xx или новее с поддержкой CUDA 12.5
- AMD: ROCm 6.1+ для Linux, Adrenalin 24.12+ для Windows
- Intel Arc: Driver 31.0.101.5379+ с поддержкой SYCL
Особенно важно для Windows: старые драйверы NVIDIA (550.xx и ниже) имеют баг с распределением памяти в llama.cpp. GPU показывает загрузку, но часть вычислений всё равно идёт на CPU.
Экстремальные случаи: слабое железо
У вас ноутбук с 4 ГБ VRAM или старый ПК? Тогда читайте мой гайд про запуск на 4 ГБ VRAM. Но кратко:
- Берём модель 1-3B параметров (TinyLlama, Phi-3 Mini)
- Формат Q4_K_M или даже Q3_K_S
- В Ollama:
--num_gpu 20 --num_thread 2 - Контекст 2048, не больше
- Смиряемся с тем, что часть будет на CPU
Иногда лучше запустить маленькую модель на GPU, чем большую на CPU. 3B модель на GPU даст 30 токенов/сек. 7B модель на CPU - 2 токена/сек.
Чек-лист: от 100% CPU к нормальной загрузке
Пройдите по пунктам:
- Обновите драйверы GPU до версий 2025-2026 года
- Выберите модель в формате IQ4_XS или Q4_K_M
- В Ollama создайте Modelfile с явным указанием num_gpu
- В LM Studio выключите "Smart Offload", укажите слои вручную
- Проверьте через nvidia-smi или диспетчер задач - GPU должен быть загружен 70%+
- Если не помогло - уменьшите размер модели или контекст
Что делать, если ничего не помогает
Бывает. Особенно со старым железом или экзотическими видеокартами. Тогда:
Вариант 1: Перейдите на Linux. Серьёзно. Разница в производительности между Windows и Linux в 2026 году достигает 2-3 раз для некоторых операций. Об этом я подробно писал в сравнении Ubuntu и Windows.
Вариант 2: Используйте llama.cpp напрямую, минуя Ollama и LM Studio. Больше контроля, но сложнее настройка.
# Пример запуска llama.cpp с GPU
./main -m models/llama-3.2-3b-q4_k_m.gguf \
-ngl 40 \
-t 6 \
-c 4096 \
-b 512 \
--flash-attn \
-np 1
Вариант 3: Купите RTX 5060 Ti 16GB. Шутка. Хотя нет, не шутка. Если серьёзно занимаетесь локальными LLM, обновление железа - лучшее вложение. У меня есть гайд по RTX 5060 Ti для локального ИИ.
FAQ: частые вопросы 2026 года
Вопрос: Почему в диспетчере задач GPU показывает 100%, но CPU тоже 80-90%?
Ответ: Это нормально для hybrid режима. Часть вычислений (embeddings, некоторые операции) всё равно идут на CPU. Главное, чтобы GPU был загружен больше.
Вопрос: LM Studio показывает "GPU layers: 45/45", но CPU на 100%.
Ответ: Проверьте, не включён ли у вас CPU fallback. В настройках LM Studio есть опция "Use CPU when GPU memory full". Выключите её.
Вопрос: У меня 32 ГБ ОЗУ, модель 7B. Почему не загружается вся на GPU с 24 ГБ VRAM?
Ответ: Потому что Ollama/LM Studio видят много оперативки и решают: "Зачем напрягать GPU, если есть куча RAM?" Принудительно укажите num_gpu или GPU layers.
Вопрос: Какие модели лучше всего оптимизированы для GPU в 2026?
Ответ: Llama 3.2 (все размеры), Qwen2.5 (особенно 7B и 14B), Command R+ (хорошая поддержка CUDA). Из новых - DeepSeek-V3, но с ней бывают проблемы на Windows.
Вопрос: Стоит ли использовать TensorRT или другие оптимизаторы?
Ответ: Если вы не готовы потратить неделю на настройку - нет. Выигрыш 10-20% не стоит потраченного времени. Лучше правильно настроить llama.cpp.
Итог: CPU должен отдыхать
Правильно настроенная система: GPU загружен на 70-90%, CPU на 20-40%. Скорость генерации в 5-10 раз выше, чем при работе на CPU. Вентиляторы не воют, компьютер не греется.
Самая частая ошибка - надеяться на "авто" настройки. Ни Ollama, ни LM Studio не знают, что у вас мощная видеокарта. Они знают, что есть оперативка, и модель можно запустить там. Скажите им явно: "Грузи на GPU!"
И последнее: если у вас действительно серьёзные задачи с локальными LLM, посмотрите мой гайд про сборку станции за $15 000. Иногда проблема не в настройках, а в том, что вы пытаетесь запустить Llama 3.1 70B на GTX 1660. Не надо так.