Почему 20-30B MoE — золотая середина для инструментов?

Все хотят запускать агентов локально. Все хотят экономить. И все ненавидят, когда модель обещает вызвать API, а вместо этого генерирует чистый вымысел. 7-13B модели слишком тупые для сложных цепочек инструментов. 70B+ модели требуют серверного железа. Остаётся узкая полоса 20-30B параметров, где MoE (Mixture of Experts) обещает качество 70B при потреблении 20B.

Обещает. Но выполняет? Вот в чём вопрос.

MoE-архитектура в 2026 году — это не магия. Это 2-8 экспертов, шлюз (router), который решает, кого активировать, и куча проблем с консистентностью. Особенно когда нужно точно следовать JSON-схеме для tool calling.

Тестовый стенд: как мы ломали модели

Никаких синтетических бенчмарков. Только реальные задачи, которые разработчики решают каждый день:

Чтение файлов: CSV с 100 строками, JSON с вложенной структурой, лог-файл с ошибками. Модель должна прочитать, проанализировать, ответить на вопросы.
Веб-поиск: Симулированный поиск через инструмент. Проверяем, не выдумывает ли модель результаты из головы.
Сложные цепочки: Прочитать файл → найти в нём проблему → поискать решение в интернете → сгенерировать фикс.

Железо: RTX 4090 24GB, 64GB DDR5. Все модели запускались через vLLM с quantization 4-bit для честного сравнения. Температура 0.1 — мы же не креативности тестируем, а точность.

Участники гонки: кто вышел на старт в 2026

Модель	Параметры (активные)	Эксперты	Контекст	Особенности
Qwen2.5-32B-Instruct	4B	8	32K	Нативная поддержка tool calling
DeepSeek-V3-16B	2.4B	16	128K	Рекордный контекст, слабая tool calling
Yi-1.5-34B-Chat	6B	4	16K	Хороший код, проблемы с JSON
GLM-4-9B	2B	8	128K	Компактная, быстрая, ограниченная логика
Mistral-Nemo-24B	3B	12	32K	Баланс скорости и качества

Заметили паттерн? Все китайские. Западные компании в 2026 году почему-то решили, что MoE — это только для гигантов вроде EXAONE MoE 236B. Ошибка.

Чтение файлов: кто понимает, а кто просто угадывает

1 CSV-анализ: простейший тест на внимательность

Даём файл sales.csv: 100 строк, колонки date, product, revenue, region. Запрос: "Какой продукт принёс максимальную выручку в Европе в Q3?"

Qwen2.5-32B: читает, считает, отвечает точно. Но медленно — 12 секунд на обработку. GLM-4-9B: отвечает за 3 секунды, но в 30% случаев ошибается на 1-2 строки. DeepSeek-V3: игнорирует условие "в Европе", считает по всем регионам.

💡

Проблема не в математике. Проблема в понимании контекста. MoE-модели часто "переключают" экспертов в середине обработки файла, теряя нить рассуждений.

2 JSON с вложенностью: проверка на рекурсию

Конфиг Kubernetes на 500 строк. Нужно найти все image: тэги без версии (latest).

Yi-1.5-34B справляется идеально — видимо, тренировали на коде. Mistral-Nemo находит 80% случаев, пропускает вложенные объекты. GLM-4 вообще предлагает "использовать grep", хотя инструмент для чтения файлов уже вызван.

Вот где MoE показывает слабость: обработка глубоко вложенных структур требует последовательной активации одних и тех же экспертов. А router иногда решает, что "хватит уже JSON'а, давайте переключимся на что-то другое".

Веб-поиск: галлюцинации или реальные результаты?

Симулируем поисковый инструмент. Возвращаем фиксированный ответ: "По запросу 'ошибка Kubernetes CrashLoopBackOff' найдено 3 решения: проверить лимиты памяти, логи контейнера, readiness probe".

Запрос к модели: "Найди решения для CrashLoopBackOff и предложи пошаговую диагностику".

50% моделей дополняют ответ своими "знаниями". "Также проверьте network policies" — это не в результатах поиска. Это галлюцинация инструмента.

DeepSeek-V3 — худший результат. Добавляет 5-7 пунктов, которых не было. Qwen2.5 строго следует данным. Mistral-Nemo балансирует — добавляет 1-2 общих совета, но помечает их как "общие рекомендации".

Почему это важно? Потому что в продакшене такие галлюцинации ломают цепочки инструментов. Модель "находит" несуществующий API-эндпоинт, пытается его вызвать, получает 404, и вся агентская система падает.

Сложные цепочки: где MoE ломается

Полный сценарий:

Прочитать лог-файл с ошибками Nginx
Выделить самую частую ошибку
Поискать решение в интернете
Сгенерировать конфиг для фикса

Qwen2.5-32B проходит 4 из 5 раз. Ошибка обычно на шаге 4 — генерирует почти правильный конфиг, но с синтаксической ошибкой. Yi-1.5 сбивается на шаге 2 — находит ошибку, но потом забывает про неё к шагу 4. GLM-4 часто пытается "оптимизировать" цепочку: пропускает поиск, сразу генерирует фикс на основе "общих знаний".

MoE-архитектура здесь — и благословение, и проклятие. Разные эксперты для разных задач (логи, поиск, код) должны работать согласованно. На практике router не всегда понимает контекст всей цепочки.

Скорость vs точность: дилемма 2026 года

Модель	Время обработки (сек)	Токенов/сек	Точность tool calling	Потребление памяти
Qwen2.5-32B	8.2	45	92%	18GB
DeepSeek-V3-16B	4.1	112	68%	10GB
Yi-1.5-34B	6.8	58	85%	20GB
GLM-4-9B	2.4	165	74%	6GB
Mistral-Nemo-24B	5.3	72	88%	14GB

Видите тренд? Чем больше экспертов и параметров, тем точнее tool calling, но медленнее работа. DeepSeek-V3 быстрый, потому что активирует мало экспертов. Но от этого страдает точность.

GLM-4-9B — сюрприз. Всего 9B параметров, но за счёт 8 экспертов показывает себя как модель на 20B. Потребляет как Gemma 3 270M, работает в 3 раза быстрее Qwen2.5. Но цена — пропущенные edge cases в сложных цепочках.

Проблемы, которые никто не обсуждает

1. Дребезжание экспертов (expert jitter)

Router нестабилен. На похожих запросах активирует разных экспертов. Результаты варьируются на 10-15%. В продакшене это кошмар — сегодня работает, завтра нет.

2. Контекстное забывание в длинных цепочках

MoE-модели хуже сохраняют контекст при переключении между инструментами. Особенно заметно в CPU-only режиме, где latency выше.

3. Квонтизация ломает router

4-bit квонтизация экономит память, но router'у нужна точность. После квонтизации он чаще ошибается в выборе эксперта. 8-bit работает лучше, но требует больше памяти.

Что выбирать в 2026 для продакшена?

Для точных операций с файлами: Qwen2.5-32B. Медленно, жрёт память, но почти не ошибается. Если нужна надёжность — это выбор.

Для быстрых агентов с поиском: Mistral-Nemo-24B. Баланс скорости и качества. Галлюцинирует меньше, чем DeepSeek.

Для embedded-систем: GLM-4-9B. Удивительная эффективность. Но нужен строгий контроль выходов — дополняет результаты своими догадками.

Если уже используете Yi: Yi-1.5-34B. Консистентность с другими моделями Yi, хорошая работа с кодом. JSON иногда кривой, но поправимо пост-обработкой.

💡

Не верьте бумажным характеристикам. Скачайте 2-3 модели, прогоните свои реальные сценарии. Разница между "94% accuracy на бенчмарке" и "работает в продакшене" — как между теорией и практикой.

Будущее: что изменится к концу 2026

1. Специализированные эксперты для tool calling. Сейчас эксперты общие. Будут появляться модели, где часть экспертов заточена именно под вызов инструментов, работу с JSON, валидацию схем.

2. Динамическая активация. Вместо фиксированного числа экспертов за запрос — адаптивное. Простой запрос → 1 эксперт. Сложная цепочка → 4-5 экспертов.

3. Router на трансформере. Нынешние линейные router'ы туповаты. В 2026-2027 появятся router'ы на маленьких трансформерах, которые понимают контекст лучше.

Пока же выбирайте по критерию "менее вредные галлюцинации". Потому что ошибка в tool calling стоит дороже, чем лишние 5 секунд обработки. И никогда не доверяйте модели вызывать критические инструменты без валидации выходных данных. Даже Qwen2.5 ошибается в 8% случаев. В продакшене это 8% инцидентов.

P.S. Если думаете, что 70B модели решат все проблемы — почитайте про как 40 миллиардов параметров превратились в цифровую пыль. Больше параметров ≠ меньше галлюцинаций. Иногда даже наоборот.

20-30B MoE для tool calling: кто не галлюцинирует с файлами и поиском?