Проблема: 128 ГБ RAM — это не шутка
Когда в Ollama 0.15.5 появилась qwen3-coder-next, многие разработчики обрадовались. Наконец-то локальная модель для кодинга с контекстом в 128К токенов! Но радость быстро сменилась недоумением. Попробуйте запустить эту штуку на обычной машине — и получите ошибку выделения памяти. Не просто ошибку, а эпическую: "CUDA out of memory" или "failed to allocate".
На 08.02.2026 qwen3-coder-next — одна из самых требовательных моделей в экосистеме Ollama. Если у вас нет профессионального железа, стандартный запуск невозможен.
Решение: два пути для разных бюджетов
Есть два подхода: либо сжимать модель через квантование, либо использовать альтернативный доступ. Первый требует понимания компромиссов, второй — готовности к ограничениям.
Квантование: что на самом деле означают q4_K_M и q8_0
В Ollama используют форматы GGUF от llama.cpp. Цифра после "q" — количество бит на вес. q4 означает 4 бита, q8 — 8 бит. Буквы K_M — это "k-quant medium", специфический метод квантования с балансом между качеством и размером.
| Формат | Размер файла | VRAM (загрузка) | Качество кода | Скорость генерации |
|---|---|---|---|---|
| q4_K_M | ~24 ГБ | ~28-32 ГБ | Хорошее | Быстрее |
| q8_0 | ~48 ГБ | ~56-60 ГБ | Очень близко к FP16 | Медленнее |
| FP16 (оригинал) | ~96 ГБ | ~80 ГБ+ | Эталонное | Зависит от железа |
Ключевой момент: q4_K_M теряет примерно 5-10% качества по сравнению с оригиналом, но сокращает требования к памяти в 3 раза. q8_0 — почти без потерь, но всё равно требует серьёзной видеокарты. Если интересны детали квантования, посмотрите полный гайд по квантованию в vLLM.
Пошаговый план: запускаем q4_K_M на реальном железе
1 Проверка доступных моделей
Сначала убедитесь, что Ollama 0.15.5 установлена. Затем проверьте, какие квантования доступны:
ollama list | grep qwen3-coder
Если ничего нет — модель ещё не скачана. Ollama автоматически выбирает "наилучший" доступный квант, что может быть не тем, что вам нужно.
2 Принудительная загрузка нужного кванта
Чтобы скачать конкретную версию, используйте полное имя:
ollama pull qwen3-coder-next:q4_K_M
Или для более высокого качества:
ollama pull qwen3-coder-next:q8_0
Загрузка q4_K_M займёт около 24 ГБ места на диске, q8_0 — около 48 ГБ. Если у вас медленный интернет, приготовьтесь ждать.
3 Запуск с контролем памяти
Даже q4_K_M требует много памяти. Запускайте с мониторингом:
# Запуск модели
ollama run qwen3-coder-next:q4_K_M
# В другом терминале смотрим использование GPU
nvidia-smi
Ожидайте 28-32 ГБ VRAM для q4_K_M. Если у вас несколько GPU, Ollama может распределить модель автоматически. Но лучше указать явно:
OLLAMA_NUM_GPU=2 ollama run qwen3-coder-next:q4_K_M
4 Настройка контекста и температуры
Модель поддерживает 128К контекста, но не пытайтесь использовать его весь сразу. Начните с 8192:
ollama run qwen3-coder-next:q4_K_M --num_ctx 8192 --temperature 0.3
Температура 0.3 даёт более детерминированный код. Для креативных решений повысьте до 0.7.
Альтернатива: когда своего железа нет
Если у вас нет GPU с 32 ГБ VRAM, есть обходной путь. Неофициальные серверы с qwen3-coder-next. Например, OpenRouter или некоторые комьюнити-хосты. Но будьте осторожны — это небезопасно для приватного кода.
Как это работает: вы отправляете запрос на удалённый сервер через API, похожий на Ollama. Качество зависит от того, какое квантование использует хост. Обычно это q4_K_M или q8_0.
Никогда не отправляйте на сторонние серверы приватный код, API-ключи или конфиденциальные данные. Используйте только для тестирования и публичных сниппетов.
Нюансы, которые никто не рассказывает
- Tool calling может сломаться после квантования. Особенно в q4_K_M. Если модель перестаёт вызывать функции правильно, это известная проблема. Решения ищут в статье про tool calling в Qwen3 Coder Next.
- Скорость генерации в q8_0 может быть ниже из-за большего объёма данных. Но разница нелинейная — иногда всего 15-20%.
- Системная память тоже важна. Для q4_K_M нужно минимум 64 ГБ RAM, для q8_0 — 96 ГБ. Иначе своп убьёт производительность.
- Тепловыделение — GPU с 32 ГБ VRAM обычно потребляет 300-400 Вт. Убедитесь в адекватном охлаждении.
Ошибки, которые совершают все
- Попытка запустить FP16 на 24 ГБ карте. Не работает. Даже с оверсабскрайбингом. Модель просто не загрузится.
- Игнорирование системной памяти. Даже если VRAM хватает, нехватка RAM приведёт к свопу и скорости 1 токен в секунду.
- Сравнение q4_K_M с другими квантованиями. В llama.cpp есть десятки вариантов. Но Ollama поддерживает только несколько. Если нужны экспериментальные — собирайте llama.cpp сами, как в гайде по сборке с SYCL.
- Ожидание той же скорости, что у 7B моделей. Qwen3-Coder-Next — это 235B параметров в оригинале. Даже с квантованием она медленнее в разы.
Что в итоге выбрать?
Если у вас RTX 4090 (24 ГБ) — только q4_K_M. И то с оговорками: возможно, придётся уменьшить контекст.
Если у вас A100 40GB или 4090 с NVLink — q8_0 даст почти идеальное качество.
Если у вас несколько карт — распределите модель. Ollama умеет, но не всегда эффективно.
Нет подходящего железа? Используйте альтернативный сервер для тестов или рассмотрите меньшие модели. Qwen3-235B против ChatGPT Pro показывает, что большие локальные модели иногда превосходят облачные.
Последний совет: перед тем как скачивать 48 ГБ q8_0, попробуйте q4_K_M. В 80% случаев разница незаметна. Особенно если вы не разрабатываете ядро Linux, а просто пишете бэкенд на Python.