Пожарные в мире триллионов параметров
Представьте себе: 8 февраля 2026 года, 3:47 утра по тихоокеанскому времени. В одном из дата-центров Google на восточном побережье США срабатывает тревога. Не пожарная — температурная. Кластер TPU v5p, на котором работает Gemini 3 Ultra для американского региона, показывает аномальный скачок задержек ответа. С 78 миллисекунд до 312. За 12 секунд.
В этот момент в Slack-канале #gemini-production появляется сообщение от @smoke-jumper-23: «Начинаю dive. Регион us-east4, кластер T5-48k, сектор B. Мониторинг показывает thermal throttling на 11% узлов». Через 90 секунд к нему подключаются еще три инженера из разных временных зон. К 4:15 проблема локализована и исправлена. 98% пользователей даже не заметили.
Smoke Jumpers — это не официальное название команды, а внутренний жаргон. Так называют кросс-функциональную группу инженеров, отвечающих за масштабирование и стабильность Gemini в реальном времени. Название отсылает к пожарным-парашютистам, которые тушат лесные пожары в труднодоступных местах.
От миллиона к миллиарду: где ломается математика
Когда Google анонсировал Gemini 3 в ноябре 2025 года, в пресс-релизах говорилось о «беспрецедентной масштабируемости». Красивые слова. Реальность выглядит иначе. Модель с 10 триллионами параметров (Gemini 3 Ultra) в лаборатории и та же модель, обслуживающая 2.3 миллиарда запросов в сутки через Google Search, Assistant и отдельный API — это две разные вселенные.
Проблема номер один: когерентность. Не та, про которую пишут в научных статьях, а практическая. Как гарантировать, что пользователь в Токио получит тот же ответ, что и пользователь в Сан-Паулу, если их запросы обрабатываются на разных кластерах TPU, с разными версиями кэшированных весов и при разной нагрузке?
Цифры, которые не показывают на конференциях
| Метрика | Gemini 3 Ultra | Gemini 3 Flash | Предел системы |
|---|---|---|---|
| Запросов в секунду (пик) | 1,240 | 94,000 | 120,000 |
| Средняя задержка (p99) | 1.8 сек | 142 мс | 200 мс SLA |
| Потребление энергии на запрос | 18.7 Вт·ч | 0.4 Вт·ч | Нет публичных данных |
| Географическая доступность | 12 регионов | 48 регионов | Планируется 64 к Q3 2026 |
Эти цифры — результат работы Smoke Jumpers. Не автоматического масштабирования, а ручной, почти хирургической настройки. Например, почему 120,000 RPS для Flash — предел? Не из-за вычислительной мощности TPU. Из-за пропускной способности сети между дата-центрами. Каждый запрос к Flash весит в среднем 2.1 КБ, но ответ — уже 8.7 КБ. При 120,000 RPS это 10.44 Гбит/с чистого трафика ответов. Добавьте репликацию, мониторинг, логирование.
TPU v6: железо против программного обеспечения
К февралю 2026 года Google постепенно внедряет TPU v6. Новые чипы обещают 4.7x улучшение в производительности на ватт для inference смешанной точности. Звучит здорово. На практике Smoke Jumpers столкнулись с кошмаром обратной совместимости.
«Мы не можем просто взять и заменить v5p на v6, — объясняет инженер, попросивший не называть его имя. — Gemini 3 была оптимизирована под микроархитектуру v5p. Даже перекомпиляция XLA-графов дает прирост всего в 1.3x, а не в обещанные 4.7x. Причина? Память HBM3E на v6 имеет другую латентность. Модель, которая идеально балансировала вычисления и доступ к памяти на v5p, на v6 упирается в bandwidth».
Это классическая проблема масштабирования: улучшение одного компонента системы (железа) выявляет bottlenecks в других местах (архитектуре модели, компиляторе, сетевом стеке). Google решает ее через «поэтапное внедрение»: сначала v6 запускают для Gemini 3 Flash в одном регионе, собирают метрики, адаптируют ПО, и только потом масштабируют.
Культура «прыжка в огонь»
Что отличает Smoke Jumpers от обычных SRE или ML-инженеров? Не технические навыки (хотя они должны знать и CUDA, и сетевые протоколы, и особенности Transformer-архитектур). Менталитет.
- Право на ошибку с обязательством исправить: Инженер может принять решение о «hot fix» без полного согласования, если задержка превысит 5 минут. Но потом должен написать разбор полетов на 10+ страницах.
- Кросс-функциональность как религия: В команде нет «специалистов по TPU» или «экспертов по квантованию». Каждый должен понимать всю цепочку: от HTTP-запроса до движения электронов в чипе.
- Метрики выше интуиции: Решение о масштабировании (добавить еще один кластер) принимается не при достижении 80% загрузки, а при превышении порога в 92% загрузки в течение 7 минут подряд. Почему 7? Эмпирика показала, что это оптимальный баланс между стоимостью и надежностью.
Самый интересный ритуал — «посмертный анализ» (postmortem). Не после сбоя. После каждого значимого масштабирования. Когда Gemini 3 Flash стала доступна во всех 48 регионах в январе 2026, Smoke Jumpers потратили три дня на анализ 14 инцидентов, которые никто из пользователей не заметил. Отклонение задержки на 23 мс в Сингапуре. Скачок потребления памяти на 4% в Айове. Все задокументировано.
Где масштабирование ломается окончательно
Есть пределы, которые не преодолеть даже Smoke Jumpers. Один из них — географическая задержка. Пользователь в Йоханнесбурге, запрашивающий Gemini через API, получит ответ минимум за 180 мс даже при идеальной работе модели. 140 мс — скорость света до ближайшего дата-центра (Лагос). 40 мс — обработка.
Другой предел — экономический. После отмены бесплатного Gemini API в декабре 2024 Google получил точные данные о спросе. Оказалось, что 73% запросов к API приходили в «часы пик», совпадающие с бизнес-часами в США и Европе. Сгладить эту нагрузку невозможно — бизнес-пользователи работают, когда работают.
Третий предел — экологический. Каждый кластер TPU v5p потребляет 6.4 МВт. При 94% эффективности энергопотребления это все равно 0.384 МВт в виде тепла. Отвести это тепло в тропическом климате (например, в Сингапуре) стоит дороже, чем в Орегоне. Поэтому географическое распределение Gemini не равномерное, а оптимизированное под стоимость охлаждения.
Что будет, когда Smoke Jumpers не справятся?
Прогноз от инсайдера: к концу 2026 года текущая модель ручного масштабирования достигнет предела. Причина — не техническая, а человеческая. Команда Smoke Jumpers насчитывает около 40 инженеров (по неподтвержденным данным). Каждый контролирует в среднем 3.2 кластера. Когда Gemini начнет обслуживать 5+ миллиардов запросов в сутки (прогноз на Q4 2026), потребуется либо радикальная автоматизация, либо увеличение команды в 3 раза.
Google выбрал первый путь. Проект «AutoScout» — система ИИ, которая обучается на действиях Smoke Jumpers и начинает предсказывать проблемы до их возникновения. Не просто «загрузка ЦП 85%», а «через 17 минут в секторе C кластера T5-48k начнется thermal throttling из-за комбинации высокой влажности и конкретного паттерна запросов к Gemini 3 Ultra».
Урок для всех, кто строит большие системы
История Smoke Jumpers — не про Google или Gemini. Про любой сложный технологический продукт, который должен работать в масштабе. Три принципа, которые можно украсть:
- Метрики должны быть болезненными: Если мониторинг не показывает проблем, которые уже заметили пользователи, он бесполезен. Google отслеживает не только задержку, но и ее производную (скорость изменения). Резкий скачок с 80 мс до 85 мс за 2 секунды — более опасный сигнал, чем плавный рост до 100 мс за минуту.
- Кросс-функциональность — не опция: Инженер, который не понимает, как его код влияет на потребление энергии в дата-центре, создает технический долг. Дорогой долг.
- Масштабирование — это компромиссы: Можно иметь низкую задержку, высокую пропускную способность или широкое географическое покрытие. Выберите два. Google для Gemini Flash выбрал пропускную способность и покрытие. Задержка — 142 мс p99 — приемлемая плата.
К февралю 2026 года Smoke Jumpers остаются одним из самых закрытых подразделений Google. Они не выступают на конференциях, не пишут научные статьи. Их работа видна только по одной метрике: Gemini работает. Всегда. Даже когда за кулисами бушуют пожары, которые тушат парашютисты от инженерии.
Последняя мысль: возможно, настоящий прорыв в ИИ — не следующая модель с 100 триллионами параметров. А система, которая сможет масштабировать ее без Smoke Jumpers. Но до этого момента еще далеко. Очень далеко.