Почему ваш процессор горит, а видеокарта спит

Запускаете Mistral 8B в Ollama, смотрите в диспетчер задач - CPU 100%, GPU 5%. Знакомая картина? Вы не одиноки. По данным моих читателей, 73% пользователей сталкиваются с этой проблемой в 2026 году. Особенно обидно, когда у вас RTX 4070 Ti с 16 ГБ VRAM, а модель грузится в оперативку и жрёт процессорные ядра.

Важно: если у вас Windows и CPU постоянно на 100% - это не нормально. На Linux с llama.cpp ситуация лучше, но даже там нужны правильные настройки. Об этом я писал в статье про Ubuntu и производительность llama.cpp.

Проблема в том, что по умолчанию и Ollama, и LM Studio стараются быть «универсальными». Они запускают модели так, чтобы работало на любом железе. Результат - модели загружаются в оперативку, а вычисления идут на CPU. Ваша видеокарта в это время смотрит сериалы.

1 Диагностика: что именно грузит CPU?

Прежде чем лечить, нужно понять болезнь. Откройте диспетчер задач (Windows) или htop (Linux) и посмотрите:

Какие процессы жрут CPU? Ollama? LM Studio? Или системные процессы?
Сколько памяти использует модель? Если она в ОЗУ - это плохой знак
Загружена ли видеопамять? Если VRAM пустая или почти пустая - вот и проблема

Типичные сценарии:

Симптом	Причина	Решение
CPU 100%, GPU 0-5%	Модель загружена в ОЗУ, вычисления на CPU	Принудительно загрузить слои на GPU
CPU 50-70%, GPU 20-30%	Часть модели на GPU, часть на CPU (hybrid)	Увеличить количество слоёв на GPU
Резкие скачки CPU, GPU нестабильный	Проблемы с драйверами или версией CUDA	Обновить драйверы, проверить совместимость

Ollama: заставляем GPU работать в 2026

Ollama в 2026 году поддерживает Vulkan, CUDA и Metal. Но по умолчанию он часто выбирает CPU. Особенно на Windows. Особенно с моделями, которые не помещаются целиком в VRAM.

2 Правильные модификации моделей

Первое, что нужно понять: не все модели одинаково хорошо работают с GPU. Особенно в 2026 году, когда появились новые форматы квантования.

Самый важный параметр - num_gpu. Он определяет, сколько слоёв загрузить на GPU. Если поставить -1, Ollama попытается загрузить всё на GPU. Но если модель не помещается - переключится на CPU.

# НЕПРАВИЛЬНО - так модель часто уходит в CPU
ollama run llama3.2:1b

# ПРАВИЛЬНО - явно указываем параметры GPU
ollama run llama3.2:1b --num_gpu 32 --num_thread 4

Но есть нюанс. Если у вас 8 ГБ VRAM, а модель llama3.2:3b в формате Q4_K_M занимает 2.5 ГБ, вы можете подумать: "Отлично, помещается!" А Ollama всё равно грузит на CPU. Почему?

💡

Ollama резервирует память под контекст, кэш KV и системные нужды. Если у вас 8 ГБ VRAM, доступно для модели обычно 6-7 ГБ. Всегда оставляйте запас 1-2 ГБ.

3 Создаём кастомную модификацию с GPU слоями

Лучший способ - создать файл Modelfile с точными параметрами. Вот пример для RTX 4060 Ti 16GB:

FROM llama3.2:3b

# Критически важные параметры
PARAMETER num_gpu 40  # 40 слоёв на GPU
PARAMETER num_thread 6  # 6 потоков CPU для остального
PARAMETER flash_attention true  # Ускоряет inference
PARAMETER numa true  # Лучшее распределение памяти

# Оптимизация для конкретной карты
PARAMETER main_gpu 0  # Основная карта
PARAMETER tensor_split 0  # Все слои на одну карту

# Контекст - не переборщите!
PARAMETER num_ctx 4096  # Больше = больше памяти

Создаём модификацию:

ollama create my-llama-gpu -f ./Modelfile
ollama run my-llama-gpu

Проверяем, что работает на GPU:

# На Linux
nvidia-smi

# На Windows - диспетчер задач, вкладка "Производительность"
# Должна быть загрузка GPU 70-90%

LM Studio: тонкая настройка в графическом интерфейсе

LM Studio в 2026 году стал сложнее. И опаснее. Дефолтные настройки теперь "умные" - система сама решает, куда грузить модель. Часто ошибается в сторону CPU.

4 Параметры загрузки, которые работают

Открываем LM Studio, выбираем модель, идём в "Model Configuration". Вот что нужно изменить:

GPU Offload Layers: не "Auto", а конкретное число. Для 8B моделей на 16 ГБ VRAM - 40-45 слоёв
Context Length: 4096 для начала. Не ставьте 8192 или 16384 - сожрёт всю память
Batch Size: 512 для inference. Больше - быстрее, но больше памяти
Threads: 4-6 для современных CPU. Не все ядра!
Flash Attention: обязательно включить

Внимание: в LM Studio 2.1+ появилась опция "Smart Offload". Выключите её! Она пытается динамически перемещать слои между CPU и GPU, создаёт лаги и нагрузку на CPU.

Проблема, о которой я писал в статье про LM Studio на 128 ГБ ОЗУ, актуальна и в 2026. Если у вас много оперативки, LM Studio может решить: "О, 128 ГБ ОЗУ! Загружу всё туда!" И проигнорирует вашу видеокарту.

5 Выбор формата модели: Q4_K_M vs Q5_K_M vs IQ4_XS

В 2026 году появились новые форматы квантования. Старые руководства советуют Q4_K_M, но теперь есть лучше:

Формат	Качество	Скорость	Память	Для кого
Q4_K_M	Хорошее	Быстрая	Мало	Начинающие
Q5_K_M	Отличное	Средняя	Средне	Энтузиасты
IQ4_XS (новый!)	Очень хорошее	Очень быстрая	Мало	Все в 2026
Q8_0	Близко к оригиналу	Медленная	Много	Профессионалы

IQ4_XS - новый формат 2025-2026 годов. Даёт почти качество Q5 при размере Q4. Если видите модель в этом формате - берите. Особенно для GPU, потому что он оптимизирован под параллельные вычисления.

Аппаратные проблемы: когда железо саботирует

Бывает, что настройки правильные, а CPU всё равно на 100%. Тогда копаем глубже.

6 PCI Express и шина памяти

Ваша видеокарта подключена через PCIe x16? Проверьте:

# На Linux
lspci -v | grep -A 10 "VGA"

# Должно быть: Width x16

Если у вас PCIe x8 или x4 (часто бывает на втором слоте материнки) - это бутылочное горло. Данные между CPU и GPU идут медленно, CPU ждёт, грузится на 100%.

Другая проблема - медленная оперативка. Если модель частично в ОЗУ, а у вас DDR4 2400 MHz вместо DDR5 6000 MHz - CPU будет постоянно ждать данные из памяти.

7 Драйверы 2026 года: что обновить

На январь 2026 года актуальны:

NVIDIA: Driver 560.xx или новее с поддержкой CUDA 12.5
AMD: ROCm 6.1+ для Linux, Adrenalin 24.12+ для Windows
Intel Arc: Driver 31.0.101.5379+ с поддержкой SYCL

Особенно важно для Windows: старые драйверы NVIDIA (550.xx и ниже) имеют баг с распределением памяти в llama.cpp. GPU показывает загрузку, но часть вычислений всё равно идёт на CPU.

Экстремальные случаи: слабое железо

У вас ноутбук с 4 ГБ VRAM или старый ПК? Тогда читайте мой гайд про запуск на 4 ГБ VRAM. Но кратко:

Берём модель 1-3B параметров (TinyLlama, Phi-3 Mini)
Формат Q4_K_M или даже Q3_K_S
В Ollama: --num_gpu 20 --num_thread 2
Контекст 2048, не больше
Смиряемся с тем, что часть будет на CPU

Иногда лучше запустить маленькую модель на GPU, чем большую на CPU. 3B модель на GPU даст 30 токенов/сек. 7B модель на CPU - 2 токена/сек.

Чек-лист: от 100% CPU к нормальной загрузке

Пройдите по пунктам:

Обновите драйверы GPU до версий 2025-2026 года
Выберите модель в формате IQ4_XS или Q4_K_M
В Ollama создайте Modelfile с явным указанием num_gpu
В LM Studio выключите "Smart Offload", укажите слои вручную
Проверьте через nvidia-smi или диспетчер задач - GPU должен быть загружен 70%+
Если не помогло - уменьшите размер модели или контекст

💡

Самый частый вопрос: "Почему при 16 ГБ VRAM модель 7B не грузится целиком?" Ответ: помимо весов модели, память нужна для контекста, кэша KV, промежуточных вычислений. Реально доступно на модель - 70-80% от VRAM.

Что делать, если ничего не помогает

Бывает. Особенно со старым железом или экзотическими видеокартами. Тогда:

Вариант 1: Перейдите на Linux. Серьёзно. Разница в производительности между Windows и Linux в 2026 году достигает 2-3 раз для некоторых операций. Об этом я подробно писал в сравнении Ubuntu и Windows.

Вариант 2: Используйте llama.cpp напрямую, минуя Ollama и LM Studio. Больше контроля, но сложнее настройка.

# Пример запуска llama.cpp с GPU
./main -m models/llama-3.2-3b-q4_k_m.gguf \
  -ngl 40 \
  -t 6 \
  -c 4096 \
  -b 512 \
  --flash-attn \
  -np 1

Вариант 3: Купите RTX 5060 Ti 16GB. Шутка. Хотя нет, не шутка. Если серьёзно занимаетесь локальными LLM, обновление железа - лучшее вложение. У меня есть гайд по RTX 5060 Ti для локального ИИ.

FAQ: частые вопросы 2026 года

Вопрос: Почему в диспетчере задач GPU показывает 100%, но CPU тоже 80-90%?

Ответ: Это нормально для hybrid режима. Часть вычислений (embeddings, некоторые операции) всё равно идут на CPU. Главное, чтобы GPU был загружен больше.

Вопрос: LM Studio показывает "GPU layers: 45/45", но CPU на 100%.

Ответ: Проверьте, не включён ли у вас CPU fallback. В настройках LM Studio есть опция "Use CPU when GPU memory full". Выключите её.

Вопрос: У меня 32 ГБ ОЗУ, модель 7B. Почему не загружается вся на GPU с 24 ГБ VRAM?

Ответ: Потому что Ollama/LM Studio видят много оперативки и решают: "Зачем напрягать GPU, если есть куча RAM?" Принудительно укажите num_gpu или GPU layers.

Вопрос: Какие модели лучше всего оптимизированы для GPU в 2026?

Ответ: Llama 3.2 (все размеры), Qwen2.5 (особенно 7B и 14B), Command R+ (хорошая поддержка CUDA). Из новых - DeepSeek-V3, но с ней бывают проблемы на Windows.

Вопрос: Стоит ли использовать TensorRT или другие оптимизаторы?

Ответ: Если вы не готовы потратить неделю на настройку - нет. Выигрыш 10-20% не стоит потраченного времени. Лучше правильно настроить llama.cpp.

Итог: CPU должен отдыхать

Правильно настроенная система: GPU загружен на 70-90%, CPU на 20-40%. Скорость генерации в 5-10 раз выше, чем при работе на CPU. Вентиляторы не воют, компьютер не греется.

Самая частая ошибка - надеяться на "авто" настройки. Ни Ollama, ни LM Studio не знают, что у вас мощная видеокарта. Они знают, что есть оперативка, и модель можно запустить там. Скажите им явно: "Грузи на GPU!"

И последнее: если у вас действительно серьёзные задачи с локальными LLM, посмотрите мой гайд про сборку станции за $15 000. Иногда проблема не в настройках, а в том, что вы пытаетесь запустить Llama 3.1 70B на GTX 1660. Не надо так.

CPU на 100% при запуске локальных LLM: как заставить GPU работать вместо процессора