G7e инстансы SageMaker: запуск LLM до 300B на GPU Blackwell в облаке | AiManual
AiManual Logo Ai / Manual.
20 Апр 2026 Инструмент

Обзор G7e инстансов Amazon SageMaker: запуск моделей до 300B параметров на новых GPU Blackwell

Полный разбор новых инстансов Amazon SageMaker G7e на GPU Blackwell. Конфигурации, стоимость, сравнение с G5 и примеры запуска гигантских моделей в 2026 году.

Blackwell пришел в SageMaker. И это не просто апгрейд железа

Амазон, наконец, завершил роллаут инстансов G7e по всем регионам. Если вы до сих пор мучались с G5, пытаясь впихнуть 120-миллиардную модель в 8 GPU с NVLink первого поколения, теперь можно выдохнуть. G7e - это первое семейство в AWS, построенное на архитектуре NVIDIA Blackwell B200, и SageMaker получил его в первую очередь.

Зачем это нужно? Потому что каждый, кто пробовал запустить что-то крупнее Qwen3.5-35B на предыдущем поколении, сталкивался с одной проблемой: цена. Инференс Gemini Ultra или GPT-OSS-120B на старом железе стоил как небольшой офис в месяц. G7e обещает исправить это за счет двух вещей: новой памяти HBM3e и переработанной системы межчиповой связи на базе NIXL, о которой мы уже подробно писали.

Важно: на 20 апреля 2026 года это самая свежая конфигурация GPU в SageMaker. Более старые инстансы серии G5 и даже ранние G6 теперь выглядят как архаика. Если вы планируете новый продакшен-проект, смотреть нужно только сюда.

Конфигурации: от скромного g7e.2xlarge до монстра на 768 ГБ VRAM

AWS предлагает градацию, которая наконец-то имеет смысл. Раньше выбор между «мало памяти» и «очень дорого» был мучительным. Теперь есть ступеньки.

ИнстансGPU (Blackwell B200)Память GPU (HBM3e)Поддержка NIXLПримерная стоимость/час (us-east-1)
g7e.2xlarge196 ГБНет (single GPU)$13.20
g7e.12xlarge4384 ГБДа (через NVLink)$78.50
g7e.24xlarge8768 ГБДа (full mesh)$149.00
g7e.48xlarge161.5 ТБДа (full mesh)$289.00

Ключевое изменение - память. Один Blackwell B200 имеет 96 ГБ HBM3e. Это сразу на 50% больше, чем у H100 (64 ГБ). Для инференса это значит, что модель размером до 70B параметров в FP16 может поместиться на одну карту. Без квантования, без танцев с распределением. Например, свежий Llama 3.2 70B или Nemotron 3 Nano 30B MoE (которую, кстати, можно развернуть в один клик через JumpStart) чувствуют себя здесь вольготно.

💡
NIXL (NVIDIA Interface for eXtreme Low Latency) - это не маркетинг. В конфигурациях с несколькими GPU он сокращает задержку обмена данными между картами в 5-7 раз по сравнению со стандартным NVLink в G5. Для гигантских моделей, разделенных между GPU, это напрямую влияет на скорость генерации токенов.

Что реально можно запустить? Цифры на 2026 год

Вот где начинается практическая польза. Обещания «до 300B параметров» - не пустой звук.

  • На g7e.2xlarge (1x B200, 96 ГБ): Любая модель до ~70B параметров в FP16. Llama 3.2 70B, Qwen3.5-35B, Gemma 4 31B. Или те же модели в 4-битном квантовании, но с запасом памяти для длинного контекста.
  • На g7e.24xlarge (8x B200, 768 ГБ): Здесь живет тяжелая артиллерия. GPT-OSS-120B в FP16? Без проблем. Qwen3.5-110B? Легко. Можно даже попробовать запустить ранние версии моделей размером 200-250B параметров с интеллектуальным распределением слоев.
  • На g7e.48xlarge (16x B200, 1.5 ТБ): Царство гигантов. Модели вроде Falcon 180B или внутренние разработки компаний размером до 300B параметров. Важно: для эффективной работы таких монстров критически важна полная сеть NVLink через NIXL, которую предоставляет эта конфигурация.

При этом, не забываем про квантование. Если ваш пайплайн позволяет использовать AWQ или GPTQ, то на одном g7e.2xlarge можно запустить 120B модель в 4-битном формате. Правда, с квантованием на SageMaker есть свои подводные камни, о которых мы уже предупреждали.

G7e против G5: где ваши деньги сгорят медленнее

Сравнивать новое поколение со старым всегда увлекательно. Особенно когда на кону тысячи долларов в месяц.

Возьмем для примера инференс модели Qwen3.5-35B. На G5 вам потребовался бы как минимум инстанс g5.12xlarge (4x A10G, 96 ГБ совокупной памяти) за ~$6.50 в час. На G7e ту же модель в том же формате FP16 можно запустить на g7e.2xlarge за $13.20. В два раза дороже, скажете вы? Но здесь нюанс: на G5 модель пришлось бы распределять между 4 GPU, что создает оверхед на коммуникацию. На G7e она помещается на одну карту. Скорость генерации на одном B200 будет выше, чем на четырех A10G. В итоге, стоимость одного сгенерированного токена может быть даже ниже.

Для более крупных моделей разница становится драматичной. Запуск 120B модели на G5 требовал минимум 8 GPU (g5.48xlarge, ~$16.30/час) с неизбежным оверхедом. На G7e.24xlarge (8x B200) у вас не только больше памяти в совокупности (768 ГБ против 384 ГБ у g5.48xlarge), но и кардинально более быстрая связь между ними. Эффективность использования железа вырастает на 40-60%.

Альтернативы? Их почти нет

Если вы заперты в экосистеме AWS, выбора у вас нет. G7e - это единственный современный вариант для тяжелого инференса на 2026 год.

Если рассматривать другие облака:

  • Google Cloud (A3 VMs с Blackwell): Анонсированы, но на момент 20 апреля 2026 года их развертывание еще не такое массовое, как у AWS. Интеграция с Vertex AI может быть не такой гладкой, как хотелось бы.
  • Azure (NDm A100 v5 серия): До сих пор в основном на Hopper (H100). Информация о планах по Blackwell расплывчата. Стоимость инференса на Azure традиционно выше.
  • Локальные решения: Для команд, которые готовы управлять своим железом, можно собрать сервер на базе Blackwell, как делали некоторые энтузиасты. Но это требует капитальных затрат и экспертизы в системном администрировании.

Правда в том, что SageMaker с его JumpStart, встроенным мониторингом и автоматическим масштабированием по-прежнему предлагает самый короткий путь от модели до продакшена. Особенно для команд, где нет десяти инженеров под рукой.

Кому срочно нужен G7e, а кому можно подождать

Бегите настраивать конфигурацию, если:

  • Вы уже упирались в ограничения памяти на G5, пытаясь запустить модель от 70B параметров.
  • Ваш продакшен-инференс требует высокой скорости генерации (больше 50 токенов/с для крупных моделей), а текущие инстансы не справляются.
  • Вы разрабатываете или тестируете модели следующего поколения (200B+), и вам нужна среда, максимально близкая к продакшену.
  • Вы используете длинный контекст (128k+ токенов), и вам критически важна память HBM3e для хранения кэша K/V.

Можете пока отложить миграцию, если:

  • Ваши модели меньше 35B параметров, и вас устраивает их производительность на G5. Резкого прироста вы не заметите.
  • Ваш workload состоит в основном из батч-обработки, где время отклика не критично.
  • Бюджет ограничен, а G5-инстансы доступны по спотовым ценам, которые в 3-4 раза ниже. Риск прерывания работы для некоторых задач может быть допустим.

И последний неочевидный совет: если вы только планируете архитектуру для serving LLM, не закладывайтесь на конкретную конфигурацию железа. Используйте абстракции вроде KServe, о которых мы писали ранее. Это позволит вам в будущем безболезненно перейти с G5 на G7e, а потом и на следующее поколение GPU, когда NVIDIA и AWS решат, что пора продавать нам что-то новое.

Подписаться на канал