Smoke Jumpers Google: Масштабирование Gemini для миллиардов | Инсайды

Пожарные в мире триллионов параметров

Представьте себе: 8 февраля 2026 года, 3:47 утра по тихоокеанскому времени. В одном из дата-центров Google на восточном побережье США срабатывает тревога. Не пожарная — температурная. Кластер TPU v5p, на котором работает Gemini 3 Ultra для американского региона, показывает аномальный скачок задержек ответа. С 78 миллисекунд до 312. За 12 секунд.

В этот момент в Slack-канале #gemini-production появляется сообщение от @smoke-jumper-23: «Начинаю dive. Регион us-east4, кластер T5-48k, сектор B. Мониторинг показывает thermal throttling на 11% узлов». Через 90 секунд к нему подключаются еще три инженера из разных временных зон. К 4:15 проблема локализована и исправлена. 98% пользователей даже не заметили.

Smoke Jumpers — это не официальное название команды, а внутренний жаргон. Так называют кросс-функциональную группу инженеров, отвечающих за масштабирование и стабильность Gemini в реальном времени. Название отсылает к пожарным-парашютистам, которые тушат лесные пожары в труднодоступных местах.

От миллиона к миллиарду: где ломается математика

Когда Google анонсировал Gemini 3 в ноябре 2025 года, в пресс-релизах говорилось о «беспрецедентной масштабируемости». Красивые слова. Реальность выглядит иначе. Модель с 10 триллионами параметров (Gemini 3 Ultra) в лаборатории и та же модель, обслуживающая 2.3 миллиарда запросов в сутки через Google Search, Assistant и отдельный API — это две разные вселенные.

Проблема номер один: когерентность. Не та, про которую пишут в научных статьях, а практическая. Как гарантировать, что пользователь в Токио получит тот же ответ, что и пользователь в Сан-Паулу, если их запросы обрабатываются на разных кластерах TPU, с разными версиями кэшированных весов и при разной нагрузке?

💡

К февралю 2026 года Google развернул Gemini 3 в четырех основных конфигурациях: Ultra (10T параметров), Pro (2.5T), Flash (340B) и Nano (3.8B). Каждая версия требует уникальной стратегии масштабирования. Flash, например, обрабатывает 87% всех запросов к Gemini API, но занимает лишь 23% вычислительных ресурсов.

Цифры, которые не показывают на конференциях

Метрика	Gemini 3 Ultra	Gemini 3 Flash	Предел системы
Запросов в секунду (пик)	1,240	94,000	120,000
Средняя задержка (p99)	1.8 сек	142 мс	200 мс SLA
Потребление энергии на запрос	18.7 Вт·ч	0.4 Вт·ч	Нет публичных данных
Географическая доступность	12 регионов	48 регионов	Планируется 64 к Q3 2026

Эти цифры — результат работы Smoke Jumpers. Не автоматического масштабирования, а ручной, почти хирургической настройки. Например, почему 120,000 RPS для Flash — предел? Не из-за вычислительной мощности TPU. Из-за пропускной способности сети между дата-центрами. Каждый запрос к Flash весит в среднем 2.1 КБ, но ответ — уже 8.7 КБ. При 120,000 RPS это 10.44 Гбит/с чистого трафика ответов. Добавьте репликацию, мониторинг, логирование.

TPU v6: железо против программного обеспечения

К февралю 2026 года Google постепенно внедряет TPU v6. Новые чипы обещают 4.7x улучшение в производительности на ватт для inference смешанной точности. Звучит здорово. На практике Smoke Jumpers столкнулись с кошмаром обратной совместимости.

«Мы не можем просто взять и заменить v5p на v6, — объясняет инженер, попросивший не называть его имя. — Gemini 3 была оптимизирована под микроархитектуру v5p. Даже перекомпиляция XLA-графов дает прирост всего в 1.3x, а не в обещанные 4.7x. Причина? Память HBM3E на v6 имеет другую латентность. Модель, которая идеально балансировала вычисления и доступ к памяти на v5p, на v6 упирается в bandwidth».

Это классическая проблема масштабирования: улучшение одного компонента системы (железа) выявляет bottlenecks в других местах (архитектуре модели, компиляторе, сетевом стеке). Google решает ее через «поэтапное внедрение»: сначала v6 запускают для Gemini 3 Flash в одном регионе, собирают метрики, адаптируют ПО, и только потом масштабируют.

Культура «прыжка в огонь»

Что отличает Smoke Jumpers от обычных SRE или ML-инженеров? Не технические навыки (хотя они должны знать и CUDA, и сетевые протоколы, и особенности Transformer-архитектур). Менталитет.

Право на ошибку с обязательством исправить: Инженер может принять решение о «hot fix» без полного согласования, если задержка превысит 5 минут. Но потом должен написать разбор полетов на 10+ страницах.
Кросс-функциональность как религия: В команде нет «специалистов по TPU» или «экспертов по квантованию». Каждый должен понимать всю цепочку: от HTTP-запроса до движения электронов в чипе.
Метрики выше интуиции: Решение о масштабировании (добавить еще один кластер) принимается не при достижении 80% загрузки, а при превышении порога в 92% загрузки в течение 7 минут подряд. Почему 7? Эмпирика показала, что это оптимальный баланс между стоимостью и надежностью.

Самый интересный ритуал — «посмертный анализ» (postmortem). Не после сбоя. После каждого значимого масштабирования. Когда Gemini 3 Flash стала доступна во всех 48 регионах в январе 2026, Smoke Jumpers потратили три дня на анализ 14 инцидентов, которые никто из пользователей не заметил. Отклонение задержки на 23 мс в Сингапуре. Скачок потребления памяти на 4% в Айове. Все задокументировано.

Где масштабирование ломается окончательно

Есть пределы, которые не преодолеть даже Smoke Jumpers. Один из них — географическая задержка. Пользователь в Йоханнесбурге, запрашивающий Gemini через API, получит ответ минимум за 180 мс даже при идеальной работе модели. 140 мс — скорость света до ближайшего дата-центра (Лагос). 40 мс — обработка.

Другой предел — экономический. После отмены бесплатного Gemini API в декабре 2024 Google получил точные данные о спросе. Оказалось, что 73% запросов к API приходили в «часы пик», совпадающие с бизнес-часами в США и Европе. Сгладить эту нагрузку невозможно — бизнес-пользователи работают, когда работают.

Третий предел — экологический. Каждый кластер TPU v5p потребляет 6.4 МВт. При 94% эффективности энергопотребления это все равно 0.384 МВт в виде тепла. Отвести это тепло в тропическом климате (например, в Сингапуре) стоит дороже, чем в Орегоне. Поэтому географическое распределение Gemini не равномерное, а оптимизированное под стоимость охлаждения.

Что будет, когда Smoke Jumpers не справятся?

Прогноз от инсайдера: к концу 2026 года текущая модель ручного масштабирования достигнет предела. Причина — не техническая, а человеческая. Команда Smoke Jumpers насчитывает около 40 инженеров (по неподтвержденным данным). Каждый контролирует в среднем 3.2 кластера. Когда Gemini начнет обслуживать 5+ миллиардов запросов в сутки (прогноз на Q4 2026), потребуется либо радикальная автоматизация, либо увеличение команды в 3 раза.

Google выбрал первый путь. Проект «AutoScout» — система ИИ, которая обучается на действиях Smoke Jumpers и начинает предсказывать проблемы до их возникновения. Не просто «загрузка ЦП 85%», а «через 17 минут в секторе C кластера T5-48k начнется thermal throttling из-за комбинации высокой влажности и конкретного паттерна запросов к Gemini 3 Ultra».

💡

Ирония в том, что AutoScout использует упрощенную версию Gemini Nano для анализа логов и метрик. Получается рекурсия: ИИ масштабирует ИИ, который масштабирует ИИ. Как мы писали ранее, у Nano есть свои ограничения, но для этой задачи она идеальна.

Урок для всех, кто строит большие системы

История Smoke Jumpers — не про Google или Gemini. Про любой сложный технологический продукт, который должен работать в масштабе. Три принципа, которые можно украсть:

Метрики должны быть болезненными: Если мониторинг не показывает проблем, которые уже заметили пользователи, он бесполезен. Google отслеживает не только задержку, но и ее производную (скорость изменения). Резкий скачок с 80 мс до 85 мс за 2 секунды — более опасный сигнал, чем плавный рост до 100 мс за минуту.
Кросс-функциональность — не опция: Инженер, который не понимает, как его код влияет на потребление энергии в дата-центре, создает технический долг. Дорогой долг.
Масштабирование — это компромиссы: Можно иметь низкую задержку, высокую пропускную способность или широкое географическое покрытие. Выберите два. Google для Gemini Flash выбрал пропускную способность и покрытие. Задержка — 142 мс p99 — приемлемая плата.

К февралю 2026 года Smoke Jumpers остаются одним из самых закрытых подразделений Google. Они не выступают на конференциях, не пишут научные статьи. Их работа видна только по одной метрике: Gemini работает. Всегда. Даже когда за кулисами бушуют пожары, которые тушат парашютисты от инженерии.

Последняя мысль: возможно, настоящий прорыв в ИИ — не следующая модель с 100 триллионами параметров. А система, которая сможет масштабировать ее без Smoke Jumpers. Но до этого момента еще далеко. Очень далеко.

«Smoke Jumpers»: как Google масштабирует Gemini для миллиардов пользователей — взгляд изнутри