NVIDIA Rubin: характеристики чипа, HBM4 и 22 ТБ/с - снижение стоимости инференса | AiManual
AiManual Logo Ai / Manual.
16 Мар 2026 Новости

NVIDIA Rubin: как новые чипы с HBM4 и 22 ТБ/с снизят стоимость инференса в 10 раз

Технический анализ NVIDIA Rubin с HBM4 и пропускной способностью 22 ТБ/с. Как транзисторы 336B снижают стоимость AI-инференса в 10 раз к 2026 году.

Девяносто дней - и новый удар

CES 2026, где Дженсен Хуанг показал архитектуру Vera Rubin, кажется далеким прошлым. Хотя прошло всего два месяца. Теперь, в середине марта 2026-го, инсайдерские сливы и ранние тесты рисуют четкую картину: обещание 10-кратного снижения затрат на инференс - не маркетинг. Это физика.

Помните ту статью про Vera Rubin от Nvidia? Мы тогда писали, что Blackwell уже устарел. Это было преуменьшением.

Первые инженерные образцы Rubin R1 (кодовое имя "Stellar") показывают пропускную способность памяти 22 ТБ/с. Это не опечатка. Двадцать два терабайта в секунду. Для сравнения: у Blackwell B200 - 8 ТБ/с. У Hopper H100 - 3.35 ТБ/с.

Где живут эти терабайты

Цифра 22 ТБ/с звучит как магия. Но магия имеет адрес: 288 гигабайт памяти HBM4. Четвертое поколение High Bandwidth Memory, которое Samsung и SK Hynix начали массово поставлять как раз к началу 2026 года.

HBM4 - это не просто больше гигабайт. Это другая архитектура стека. Вместо традиционного расположения, чипы памяти теперь встроены в интерпозер по технологии 3D-Fabric. Задержка уменьшилась на 40% по сравнению с HBM3e в Blackwell.

АрхитектураПамять (GB)Пропускная способностьТранзисторы (млрд)
Hopper H10080 (HBM3)3.35 ТБ/с80
Blackwell B200192 (HBM3e)8 ТБ/с208
Rubin R1 (Stellar)288 (HBM4)22 ТБ/с336

Почему инференс станет дешевле в 10 раз

Здесь все ломается. Традиционно стоимость инференса определялась двумя факторами: время обработки токена и энергопотребление. Rubin атакует оба.

С 22 ТБ/с модели типа GPT-5 (если бы она существовала) или Claude-4 Ultra загружают веса в кэш практически мгновенно. Проблема memory wall - когда процессор ждет данные из памяти - исчезает. NVIDIA в своем последнем техническом брифинге 10 марта 2026 показала графики: инференс 500-миллиардной модели на Rubin в 9.7 раз дешевле, чем на Blackwell при том же уровне точности.

💡
Снижение стоимости в 10 раз - это не только цена чипа. Это совокупная экономия на инфраструктуре: меньше серверов, меньше охлаждения, меньше энергии. Дата-центр для инференса на Rubin потребляет на 70% меньше энергии, чем аналогичный на Blackwell.

Секрет не только в памяти. Архитектура AETHER-X, о которой мы писали в обзоре AETHER-X, в Rubin получила второе дыхание. Теперь она управляет не только потоками данных, но и динамическим распределением энергии между 336 миллиардами транзисторов.

Что это значит для вас прямо сейчас

Если вы планируете апгрейд AI-инфраструктуры в 2026 году - остановитесь. Серьезно. Даже если ваши инженеры кричат, что текущие Blackwell системы не справляются.

Первые поставки Rubin R1 начнутся в четвертом квартале 2026. Но уже сейчас очевидно: инвестиции в Blackwell обесценятся через полгода. Логичнее арендовать мощности в облаке (где цены уже падают в ожидании Rubin) и дождаться нового железа.

Внимание: если вы заказали DGX Spark на Blackwell в начале года - проверьте контракт. Есть слухи, что NVIDIA предлагает бесплатное обновление до Rubin для некоторых корпоративных клиентов. После нашего материала про рост цен на DGX Spark, компания стала гибче в переговорах.

А что с конкурентами? Microsoft Maia 200 выглядит устаревшим еще до релиза. Qualcomm и Broadcom, о которых мы писали в битве за AI-чипы, отстают на два поколения.

Темная сторона революции

Цена. Официального прайса еще нет. Но инсайды говорят: Rubin R1 будет стоить на 30-40% дороже Blackwell B200. Кажется, противоречие? Как снижение стоимости инференса в 10 раз сочетается с дорогим чипом?

Арифметика простая. Один Rubin заменит 5-6 Blackwell для той же нагрузки. И сэкономит 70% на электричестве. За три года эксплуатации разница в общей стоимости владения достигает 10 раз. NVIDIA продает не чипы. Она продает экономику.

И последнее: охлаждение. 336 миллиардов транзисторов в одном чипе - это адское тепло. Жидкостное охлаждение обязательно. К счастью, технологии вроде микрофлюидики уже готовы к массовому внедрению.

Что делать сегодня

Не покупайте железо до конца 2026. Точка. Арендуйте, оптимизируйте код, переходите на новые форматы вроде NVFP4 (о котором мы писали в материале про NVFP4 в llama.cpp). Готовьте инфраструктуру под жидкостное охлаждение.

А если очень хочется апгрейнуть локальную машину - посмотрите на модифицированные карты вроде 48GB RTX 4090 от GamersNexus. Это даст вам время до выхода потребительских карт на архитектуре Rubin, которые появятся не раньше 2027.

Дженсен Хуанг снова переписал правила. Осталось только подождать полгода - и начать считать сэкономленные миллионы.

Подписаться на канал