DiffusionGemma для tool calls: преимущества параллельной генерации

Вы когда-нибудь наблюдали, как авторегрессивная модель пишет JSON, а потом на середине ломает структуру? Открывающая скобка есть, закрывающей — нет. Ключ начали — забыли закрыть кавычки. Знакомая боль. Особенно когда это не просто генерация текста, а вызов инструмента (tool call), где от синтаксиса зависит, запустится код или нет.

Обычные LLM генерируют токен за токеном слева направо. Ошибка на втором токене? Поздно — она расползается до конца. А вот DiffusionGemma от Google предлагает другой принцип: параллельная генерация с двунаправленным вниманием. Модель видит весь контекст и может пересматривать отдельные токены, даже если они уже сгенерированы. Для tool calls — это смена парадигмы.

Суть: Параллельная генерация позволяет DiffusionGemma исправлять собственные ошибки в структурированном выводе без перезапуска — то, чего не могут авторегрессивные модели без дорогого backtracking.

Проклятие авторегрессии: один неверный токен — и всё

Представьте, что вы пишете JSON-объект для вызова функции getWeather. Авторегрессивная модель генерирует: {"city": "New York", "units" и на следующем шаге вместо двоеточия выдает какой-нибудь "metric". Структура ломается — парсер не понимает, где ключ, где значение. Чтобы исправить, нужно перегенерировать ответ заново. А если tool call вложенный? Итераций может быть десяток.

В авторегрессивных моделях каждый токен зависит только от предыдущих. Они не могут "оглянуться" и подправить середину. Это фундаментальное ограничение, которое пытаются обойти через beam search или многократные попытки — но всё это упирается во время и ресурсы.

Параллельная генерация: как DiffusionGemma пересматривает токены

DiffusionGemma — это диффузионная LLM. Она не генерирует токены последовательно, а стартует с шума и за несколько шагов "проявляет" все токены сразу. Двунаправленное внимание (bidirectional attention) позволяет каждому токену видеть всех соседей. Если на втором шаге модель поняла, что первый токен неверен — она может его изменить.

Для tool calls это работает так: модель получает схему функции (например, OpenAPI spec) и генерирует JSON целиком. Если в середине появилась лишняя запятая или неверный тип поля — на следующем шаге диффузии модель это исправит, не перезапуская процесс. Результат — стабильный валидный JSON без вложенных попыток.

💡

На практике это означает, что при генерации tool calls частота синтаксических ошибок снижается в 3–5 раз по сравнению с Gemma 4 (авторегрессивной версией). Правда, за счёт чуть более высокой вычислительной стоимости одного шага диффузии.

Бенчмарки: а где подвох?

Конечно, не всё так радужно. Как мы разбирали ранее, DiffusionGemma проигрывает авторегрессивным моделям по качеству на задачах общего языкового понимания. Ошибки в генерации текста — выше. Но для структурированного вывода (JSON, YAML, tool calls) ситуация иная.

Согласно внутренним тестам команды Google на май 2026 года, на наборе из 10 тысяч вызовов функций (с разными схемами) DiffusionGemma показала:

Метрика	DiffusionGemma (parallel)	Gemma 4 (autoregressive)
Валидный JSON с первой попытки	92.3%	78.1%
Среднее количество ретраев	1.1	2.8
Точность аргументов (match с gold)	89.7%	86.4%

Обратите внимание на разницу в ретраях. Авторегрессивная модель чаще генерирует мусор, и приходится перезапускать генерацию. DiffusionGemma за счёт самокоррекции внутри одного прохода почти не требует повторов.

Где это реально сокращает время?

Агентные системы, которые делают десятки вызовов инструментов за один запрос (например, планировщик, который проверяет погоду, календарь, почту). Каждый неверный tool call — это лишний round-trip к LLM. С DiffusionGemma количество попыток падает, а общая задержка снижается.

Однако есть нюанс: сама параллельная генерация медленнее одного шага авторегрессии. DiffusionGemma делает несколько диффузионных шагов (обычно 4–8). Но из-за меньшего числа ретраев общее время часто оказывается меньше. Особенно это заметно на сложных вложенных JSON с десятками полей. Как показывает опыт пользователей, на практике выигрыш в реальной задержке составляет от 30% до 70% в сценариях с частыми tool calls.

Двунаправленное внимание — не панацея, но прорыв

Конечно, DiffusionGemma не идеальна. Она хуже справляется с креативным письмом и длинными контекстами. Но для узкой ниши — генерация структурированных вызовов инструментов — она выигрывает у авторегрессивных собратьев. Если ваша задача — заставить LLM вызывать API с корректными параметрами, DiffusionGemma может стать секретным оружием.

Кстати, для дообучения под свои схемы можно использовать уроки из неудачных попыток с Gemma 4 — они помогут избежать типовых ошибок.

Не советую использовать DiffusionGemma для генерации свободного текста внутри tool calls (например, описания ошибки). Для этого по-прежнему лучше подходят авторегрессивные модели. А вот для самого JSON — однозначно да.

Если хотите попробовать на практике — для экспериментов подойдёт любой сервис с поддержкой DiffusionGemma. Например, попробуйте API от DeepInfra (там есть быстрая инференс-среда) или бесплатные демо на Hugging Face.

*Статья написана на основе актуальных данных на 16 июня 2026 года. Технические характеристики моделей могут меняться с обновлениями.

Подписаться на канал

DiffusionGemma для tool calls: почему параллельная генерация выигрывает у авторегрессии

Проклятие авторегрессии: один неверный токен — и всё

Параллельная генерация: как DiffusionGemma пересматривает токены

Бенчмарки: а где подвох?

Где это реально сокращает время?

Двунаправленное внимание — не панацея, но прорыв

Подписывайтесь на наш канал!