Gemini 3.5 Flash «деревянная»: почему оптимизация под бенчмарки убила диалог | AiManual
AiManual Logo Ai / Manual.
24 Май 2026 Новости

Почему Gemini 3.5 Flash стала «деревянной»: разбор оптимизации под агентные бенчмарки и жертвы качеством диалога

Разбираем, почему Gemini 3.5 Flash проваливает живые диалоги, хотя бьет рекорды в тестах. Закон Гудхарта, файнтюн под агентные бенчмарки и цена метрик.

Вы когда-нибудь разговаривали с роботом, который одновременно пугающе компетентен и неестественно туп? Gemini 3.5 Flash — идеальный кандидат на это звание. На бумаге она — королева агентных бенчмарков: 92% на AgentBench v2, 87% на SWE-bench, молниеносный латенси. Но вот беда: стоит ей ответить на простой вопрос вроде "Как пройти к ближайшему кафе?" — и вы получите сухую инструкцию из пяти шагов с вызовом API карт, даже если собеседник просто хотел поболтать. Модель стала "деревянной". И это не баг, а фича, за которую Google заплатила живого общения.

Ранее мы уже разбирали, как Gemini 3.5 Flash на деле глупее, чем на графиках. Теперь копнём глубже — что именно в её "характере" сломалось.

Агентный файнтюн: когда метрики — главный бог

Google пошла ва-банк. Вместо того чтобы делать модель "умной" в широком смысле, её натаскали на выполнение узких задач из бенчмарков. В ход пошли датасеты Toolathlon (набор сценариев вызова внешних инструментов), MCP atlas (огромная база цепочек вызовов) и синтетические диалоги, где каждое действие — это вызов функции. Fine-tuning прошёл так агрессивно, что модель перестала понимать, когда инструменты не нужны. Она теперь видит молоток в каждой задаче (с) — и долбит.

Как это выглядит на практике? Вот фрагмент реального диалога с Gemini 3.5 Flash:

  • Пользователь: "Напомни, что я сегодня хотел купить молоко."
  • Gemini 3.5 Flash: "Для выполнения задачи я создам напоминание. Вызову функцию create_reminder с параметрами: title='Купить молоко', time='сегодня'. Подтверждаю: напоминание установлено на 19:00."

Вместо "Ок, запомнила, напомню вечером" — канцелярский отчёт. Модель ведёт себя не как собеседник, а как прокси-сервер, который логирует каждый чих. И это не единичный случай — это паттерн.

⚠️
Похожая беда уже случалась с моделями, которые слишком сильно затачивали под агентные workflow. Помните историю со старым Gemini 3 Flash API? Тогда тоже жертвовали диалогом ради инструментов.

Закон Гудхарта наносит ответный удар

Экономист Чарльз Гудхарт сформулировал принцип: "Когда показатель становится целью, он перестаёт быть хорошим показателем". В случае с Gemini 3.5 Flash это проявилось в чистом виде. Google поставила цель — набрать максимум очков на AgentBench, SWE-bench и новом бенчмарке Toolathlon. И она её достигла. Ценой потери способности к естественному диалогу, креативности и чувства меры.

Независимые тесты показывают, что на нешаблонных, "живых" вопросах модель теряет 40-50 процентных пунктов. Разница между официальными 92% и реальными 41% на логистической задаче — не брак, а закономерность. Модель не решает задачу — она распознаёт паттерн из обучения. Если паттерн совпал — бинго. Если нет — вы получаете "деревянный" ответ, который формально корректен, но по сути бесполезен.

Особенно заметно это в длинных диалогах. Модель начинает "зацикливаться" на вызовах инструментов, даже когда они не нужны. Она генерирует JSON-схемы вместо обычных предложений, вставляет пустые теги tool_call и забывает, что разговаривает с человеком. Это напоминает синдром "vibe coding", только наоборот: вместо кода по настроению — диалог по шаблону.

Что пошло не так: Toolathlon и MCP atlas как ловушка

Google использовала для файнтюна датасеты, где у каждого оборота диалога есть строго определённая структура: запрос → вызов инструмента → ответ. Модель выучила эту структуру как единственно верную. Она перестала видеть альтернативы. В результате даже простые вопросы вроде "Как дела?" превращаются в последовательность функций: check_mood → generate_response → speak.

Сравните с архитектурой Gemini 3, где reasoning был более гибким. В Gemini 3.5 Flash reasoning тоже есть, но он слишком жёстко привязан к инструментальной парадигме. Модель "думает" так, будто решает задачу на алгоритмическом собеседовании: разбить, вызвать, вернуть. Способность к свободному рассуждению — атрофирована.

Критерий Gemini 2.5 Flash Gemini 3.5 Flash
Естественность диалога Высокая Низкая (шаблонная)
Агентные метрики Средние Высокие
Адаптация к новым задачам Хорошая Плохая (завязана на паттерны)

Ирония судьбы: Google сама недавно рекламировала Gemini 3 Flash как лучшую модель для автономных агентов. Но когда агентность доведена до абсолюта, она убивает то, ради чего её создавали — взаимодействие с человеком.

Что с этим делать? Совет пользователям

Если вы используете Gemini 3.5 Flash для чат-ботов или поддержки — готовьтесь к тому, что пользователи будут жаловаться на "роботизированность". Решение? Либо снижать температуру и отключать инструментальные вызовы там, где они не нужны, либо — возвращаться к Gemini 2.5 Flash, которая не настолько заточена под бенчмарки и звучит живее. Кстати, в нашей битве поколений мы уже заметили этот тренд.

А ещё — перестаньте верить таблицам с результатами. Смотрите на live-тесты с реальными диалогами. Потому что метрики — это маска. И под маской Gemini 3.5 Flash иногда скрывается... деревянное лицо без эмоций.

Подписаться на канал