Проблема: 128 ГБ RAM — это не шутка

Когда в Ollama 0.15.5 появилась qwen3-coder-next, многие разработчики обрадовались. Наконец-то локальная модель для кодинга с контекстом в 128К токенов! Но радость быстро сменилась недоумением. Попробуйте запустить эту штуку на обычной машине — и получите ошибку выделения памяти. Не просто ошибку, а эпическую: "CUDA out of memory" или "failed to allocate".

На 08.02.2026 qwen3-coder-next — одна из самых требовательных моделей в экосистеме Ollama. Если у вас нет профессионального железа, стандартный запуск невозможен.

Решение: два пути для разных бюджетов

Есть два подхода: либо сжимать модель через квантование, либо использовать альтернативный доступ. Первый требует понимания компромиссов, второй — готовности к ограничениям.

Квантование: что на самом деле означают q4_K_M и q8_0

В Ollama используют форматы GGUF от llama.cpp. Цифра после "q" — количество бит на вес. q4 означает 4 бита, q8 — 8 бит. Буквы K_M — это "k-quant medium", специфический метод квантования с балансом между качеством и размером.

Формат	Размер файла	VRAM (загрузка)	Качество кода	Скорость генерации
q4_K_M	~24 ГБ	~28-32 ГБ	Хорошее	Быстрее
q8_0	~48 ГБ	~56-60 ГБ	Очень близко к FP16	Медленнее
FP16 (оригинал)	~96 ГБ	~80 ГБ+	Эталонное	Зависит от железа

Ключевой момент: q4_K_M теряет примерно 5-10% качества по сравнению с оригиналом, но сокращает требования к памяти в 3 раза. q8_0 — почти без потерь, но всё равно требует серьёзной видеокарты. Если интересны детали квантования, посмотрите полный гайд по квантованию в vLLM.

Пошаговый план: запускаем q4_K_M на реальном железе

1 Проверка доступных моделей

Сначала убедитесь, что Ollama 0.15.5 установлена. Затем проверьте, какие квантования доступны:

ollama list | grep qwen3-coder

Если ничего нет — модель ещё не скачана. Ollama автоматически выбирает "наилучший" доступный квант, что может быть не тем, что вам нужно.

2 Принудительная загрузка нужного кванта

Чтобы скачать конкретную версию, используйте полное имя:

ollama pull qwen3-coder-next:q4_K_M

Или для более высокого качества:

ollama pull qwen3-coder-next:q8_0

Загрузка q4_K_M займёт около 24 ГБ места на диске, q8_0 — около 48 ГБ. Если у вас медленный интернет, приготовьтесь ждать.

3 Запуск с контролем памяти

Даже q4_K_M требует много памяти. Запускайте с мониторингом:

# Запуск модели
ollama run qwen3-coder-next:q4_K_M

# В другом терминале смотрим использование GPU
nvidia-smi

Ожидайте 28-32 ГБ VRAM для q4_K_M. Если у вас несколько GPU, Ollama может распределить модель автоматически. Но лучше указать явно:

OLLAMA_NUM_GPU=2 ollama run qwen3-coder-next:q4_K_M

4 Настройка контекста и температуры

Модель поддерживает 128К контекста, но не пытайтесь использовать его весь сразу. Начните с 8192:

ollama run qwen3-coder-next:q4_K_M --num_ctx 8192 --temperature 0.3

Температура 0.3 даёт более детерминированный код. Для креативных решений повысьте до 0.7.

💡

Если модель вылетает с ошибкой "exceeds context size", это частая проблема с большими контекстами. Решение есть в статье про Qwen Coder 30B и контекст.

Альтернатива: когда своего железа нет

Если у вас нет GPU с 32 ГБ VRAM, есть обходной путь. Неофициальные серверы с qwen3-coder-next. Например, OpenRouter или некоторые комьюнити-хосты. Но будьте осторожны — это небезопасно для приватного кода.

Как это работает: вы отправляете запрос на удалённый сервер через API, похожий на Ollama. Качество зависит от того, какое квантование использует хост. Обычно это q4_K_M или q8_0.

Никогда не отправляйте на сторонние серверы приватный код, API-ключи или конфиденциальные данные. Используйте только для тестирования и публичных сниппетов.

Нюансы, которые никто не рассказывает

Tool calling может сломаться после квантования. Особенно в q4_K_M. Если модель перестаёт вызывать функции правильно, это известная проблема. Решения ищут в статье про tool calling в Qwen3 Coder Next.
Скорость генерации в q8_0 может быть ниже из-за большего объёма данных. Но разница нелинейная — иногда всего 15-20%.
Системная память тоже важна. Для q4_K_M нужно минимум 64 ГБ RAM, для q8_0 — 96 ГБ. Иначе своп убьёт производительность.
Тепловыделение — GPU с 32 ГБ VRAM обычно потребляет 300-400 Вт. Убедитесь в адекватном охлаждении.

Ошибки, которые совершают все

Попытка запустить FP16 на 24 ГБ карте. Не работает. Даже с оверсабскрайбингом. Модель просто не загрузится.
Игнорирование системной памяти. Даже если VRAM хватает, нехватка RAM приведёт к свопу и скорости 1 токен в секунду.
Сравнение q4_K_M с другими квантованиями. В llama.cpp есть десятки вариантов. Но Ollama поддерживает только несколько. Если нужны экспериментальные — собирайте llama.cpp сами, как в гайде по сборке с SYCL.
Ожидание той же скорости, что у 7B моделей. Qwen3-Coder-Next — это 235B параметров в оригинале. Даже с квантованием она медленнее в разы.

Что в итоге выбрать?

Если у вас RTX 4090 (24 ГБ) — только q4_K_M. И то с оговорками: возможно, придётся уменьшить контекст.

Если у вас A100 40GB или 4090 с NVLink — q8_0 даст почти идеальное качество.

Если у вас несколько карт — распределите модель. Ollama умеет, но не всегда эффективно.

Нет подходящего железа? Используйте альтернативный сервер для тестов или рассмотрите меньшие модели. Qwen3-235B против ChatGPT Pro показывает, что большие локальные модели иногда превосходят облачные.

Последний совет: перед тем как скачивать 48 ГБ q8_0, попробуйте q4_K_M. В 80% случаев разница незаметна. Особенно если вы не разрабатываете ядро Linux, а просто пишете бэкенд на Python.

Qwen3-Coder-Next в Ollama: хватит ли 128 ГБ RAM и зачем нужен q8_0