«Модель думает, что вызвала функцию, а на самом деле просто галлюцинирует»

Вы скачали Qwen 3 Coder Next, настроили tool calling в llama.cpp, а модель вместо JSON с аргументами выдает какой-то поток сознания про «я понимаю ваш запрос и сейчас выполню функцию». Знакомо? Добро пожаловать в клуб.

На 04.02.2026 Qwen 3 Coder Next — одна из лучших моделей для программирования, которая умеет работать с функциями. В теории. На практике tool calling ломается с вероятностью 70%. И дело не в вашей криворукости — модель действительно имеет баги в реализации этого функционала.

Важный момент: баги tool calling — это не фича. Модель обучена на примерах вызовов функций, но в некоторых квантованиях и при определенных настройках этот механизм просто не работает. Вы получаете модель, которая думает, что умеет вызывать инструменты, но на деле не умеет.

Почему tool calling ломается? Разбираемся в корне проблемы

Есть три слоя проблем, которые накладываются друг на друга:

Слой 1: Квантование убивает структуру — некоторые методы квантования (особенно агрессивные) нарушают внутренние представления модели о том, как должен выглядеть JSON вызова функции
Слой 2: Неправильный шаблон — Qwen 3 Coder Next требует специфического формата промпта для tool calling, который отличается от стандартного Qwen
Слой 3: Баги в самой модели — даже оригинальная fp16 версия иногда галлюцинирует tool calls, особенно в длинных диалогах

Про галлюцинации tool calls мы уже писали — там похожая история, но с визуальной моделью. Coder Next ведет себя более коварно: он не просто галлюцинирует, он уверен, что делает все правильно.

Шаг 1: Находим работающие квантования (актуально на 04.02.2026)

Первое, что нужно сделать — выбросить в помойку большинство GGUF файлов из интернета. Особенно те, что квантованы в Q4_K_M или Q5_K_M. Эти методы для Coder Next работают плохо.

1 Проверенные квантования на сегодня

Тип квантования	Работает с tool calling	Качество кода	Размер (7B)
MXFP4 (новый стандарт)	✅ Отлично	95% от оригинала	~4.2 GB
Q4_0 (старый, но стабильный)	✅ Хорошо	90% от оригинала	~4.0 GB
Q8_0 (почти без потерь)	✅ Идеально	99% от оригинала	~7.8 GB
Q4_K_M (популярный)	❌ Не работает	Код норм, tool calling мертв	~4.5 GB
IQ4_XS (экспериментальный)	⚠️ Случайно	Нестабильно	~3.8 GB

💡

MXFP4 — новый формат квантования, который появился в конце 2025. Он специально оптимизирован для сохранения структурных паттернов в моделях, что критично для tool calling. Если ваш llama.cpp поддерживает MXFP4 (нужна версия от ноября 2025 или новее) — берите его.

Где брать? На Hugging Face ищите модели от авторов, которые специально тестируют tool calling. Ключевые слова: «tested with tool calling», «function calling works». Не доверяйте слепо количеству скачиваний — часто самые популярные квантования как раз сломанные.

Шаг 2: Правильный шаблон — разница между «работает» и «галлюцинирует»

Вот где собака зарыта. Qwen 3 Coder Next использует НЕ стандартный шаблон Qwen. Более того, шаблон отличается в зависимости от того, используете вы инструменты или нет.

2 Как НЕ надо делать (почти все так делают и удивляются)

# НЕ РАБОТАЕТ с tool calling:
prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n"
prompt += "<|im_start|>user\nWhat's the weather in Tokyo?<|im_end|>\n"
prompt += "<|im_start|>assistant\n"
# Модель начнет генерировать обычный текст, не JSON

3 Рабочий шаблон для tool calling

# РАБОТАЕТ с tool calling:
system_msg = "You are a helpful assistant with access to functions."

# Ключевой момент: описание функций ДО пользовательского сообщения
functions_desc = """
Available functions:
- get_weather(location: str) -> str: Get weather for location
"""

prompt = f"<|im_start|>system\n{system_msg}\n{functions_desc}<|im_end|>\n"
prompt += f"<|im_start|>user\nWhat's the weather in Tokyo?<|im_end|>\n"
prompt += "<|im_start|>assistant\n"
# Теперь модель сгенерирует корректный JSON

Обратите внимание на два критических отличия:

Описание функций идет ВНУТРИ system сообщения, а не отдельно
Формат описания функций — простой текст, не JSON Schema (модель обучена на таком формате)

Если вы используете llama.cpp с флагом --grammar для проверки JSON, вам нужна дополнительная настройка. Модель иногда выдает JSON с лишними пробелами или в одну строку, что ломает строгие грамматики. Либо настраивайте гибкую грамматику, либо отключайте проверку для первых токенов ответа.

Шаг 3: Настройка llama.cpp — флаги, которые спасают ситуацию

Даже с правильным квантованием и шаблоном модель может выдавать мусор. Потому что настройки генерации по умолчанию не оптимизированы для structured output.

4 Рабочая команда запуска

./main -m qwen3-coder-next-7b-MXFP4.gguf \
  --temp 0.1 \           # Низкая температура для предсказуемого JSON
  --top-k 40 \           # Ограничиваем выбор токенов
  --top-p 0.95 \         # Nucleus sampling
  --repeat-penalty 1.1 \  # Слабый penalty, чтобы не зацикливался
  --ctx-size 4096 \       # Достаточно для tool calling
  --no-display-prompt \   # Не показывать промпт в выводе
  --logit-bias 1234 -1 \  # Если знаете ID токена '{', можно его подтолкнуть
  -p "ваш_промпт_здесь"

Почему temp 0.1? Потому что при высокой температуре модель начинает «креативить» и придумывает странные названия полей в JSON. Нужна максимальная детерминированность.

Про ускорение Qwen3 Next в llama.cpp мы писали отдельно — там есть оптимизации конкретно под эту архитектуру. Примените их, скорость важна.

Шаг 4: Дебаг — что делать, если все равно не работает

Вы сделали все по инструкции, а модель выдает «I will call the get_weather function now» вместо JSON. Значит, где-то затаилась еще одна проблема.

Проверьте версию llama.cpp — нужна версия от декабря 2025 или новее. В более старых версиях есть баг с обработкой special tokens у Qwen3 Next
Посмотрите на лог special tokens — запустите с флагом --logits-all и проверьте, что модель видит правильные токены конца промпта
Попробуйте другой размер контекста — иногда при 8192 токенах model работает, а при 4096 — нет. И наоборот
Дайте пример — в system prompt добавьте один-два примера вызова функций. Модели иногда нужно напомнить, как выглядит правильный формат

Если ничего не помогает — возможно, вам попалась «сломанная» квантовка, где внутренние представления функции повреждены безвозвратно. Качайте другую.

Работающие альтернативы на 04.02.2026

Если Qwen 3 Coder Next продолжает упорствовать в своем нежелании работать с инструментами, есть варианты:

Модель	Tool calling	Качество кода	Размер
DeepSeek Coder V3	✅ Стабильный	Сопоставимо	6-34B
CodeLlama 34B Instruct	⚠️ С настройкой	Хорошо	34B
MiniMax M2.1 Coder	✅ Отличный	Немного хуже	7-32B

FAQ: вопросы, которые вы хотели задать, но боялись

Почему у одних работает, у других нет?

Комбинация факторов: версия llama.cpp, конкретный GGUF файл (даже одинаковый тип квантования от разных авторов может отличаться), оперативная память (при нехватке памяти модель ведет себя странно), даже температура CPU влияет.

Можно ли починить сломанную квантовку?

Нет. Если tool calling не работает в конкретном GGUF, его нужно переквантовать заново с другими настройками. Руководство по квантованию поможет, если хотите сделать сами.

А через API работает?

Оригинальная модель через официальный API работает нормально. Проблемы начинаются при локальном запуске. Siliconflow и другие провайдеры часто используют квантованные версии, так что там те же проблемы.

Это баг модели или фича?

На 04.02.2026 — это баг. Разработчики Qwen знают о проблеме, но фикс еще не выпущен. В будущих версиях обещают улучшить стабильность tool calling.

Итог: что делать прямо сейчас

Скачайте MXFP4 или Q4_0 квантование от проверенного автора
Используйте правильный шаблон с функциями внутри system prompt
Запускайте с низкой температурой (0.1-0.3)
Если не работает — попробуйте дать пример вызова в промпте
Все еще не работает? Попробуйте DeepSeek Coder V3

И помните: если модель упорно генерирует текст вместо JSON, она не тупая. Она просто запуталась в своих собственных весах. Как мы все иногда.

⚠️

Самый неочевидный совет: иногда tool calling начинает работать после того, как модель «разогреется» 2-3 обычными запросами без функций. Попробуйте сначала задать простые вопросы по коду, а потом уже запрашивать вызов функции. Странно, но работает.

Qwen 3 Coder Next не звонит: как починить сломанный tool calling, найти работающие квантования и не сойти с ума