AMD Instinct MI350P с CDNA 4: дешевый AI-инференс в PCIe

Пока рынок AI-ускорителей штормит от анонсов NVIDIA, Microsoft и Meta, AMD решила не догонять, а перепрыгнуть. 7 мая 2026 года компания официально представила Instinct MI350P — первый ускоритель на архитектуре CDNA 4, выполненный в классическом форм-факторе PCIe. И это не просто очередная видеокарта с толстым радиатором. Это — выстрел в сторону тех, кто устал от монополии CUDA и хочет считать центики за токен.

В двух словах: MI350P — это не MI350X (тот, что в OAM-формате для гигантских кластеров), а его младший брат, рассчитанный на инференс в обычных серверах. Без жидкого охлаждения, без NVLink-подобных мостиков. Просто вставил в слот, настроил и считаешь. Звучит слишком хорошо, чтобы быть правдой? Давайте разбираться.

CDNA 4: не просто цифры

Архитектура CDNA 4 — это не эволюционное улучшение. AMD переработала вычислительные блоки, сделав упор на low-precision вычисления. Главная фишка — аппаратная поддержка FP4 (4-битные числа с плавающей точкой) и MXFP4 (microscaling FP4). Это прямое попадание в современные методы квантизации моделей: теперь нет нужды в программных прослойках — чип сам умеет жонглировать четырёхбитными данными.

Для сравнения: NVIDIA в архитектуре Blackwell внедрила поддержку FP4 только в топовых ускорителях B200, а в младших сериях её нет. AMD же сразу кладёт FP4 в продуктовую линейку. И это меняет правила игры для инференса больших моделей.

MI350P получил 96 вычислительных блоков CDNA 4, 192 ГБ памяти HBM3e с пропускной способностью 5,2 ТБ/с. TDP — 350 Вт. Да, не 700 Вт, как у конкурентов. Именно поэтому форм-фактор PCIe — такой ускоритель можно ставить в стандартные стоечные серверы без доработок блока питания и охлаждения.

Инференс без переплаты

Ключевой козырь MI350P — цена за токен. AMD обещает, что в задачах инференса больших языковых моделей (LLaMA-4, GPT-5, Gemini 2.5) MI350P выдаёт до 2,5 раз больше токенов в секунду на доллар затрат по сравнению с NVIDIA H200. Это прямой удар по гегемонии зелёных.

Но есть нюанс: софт. AMD всё ещё больно борется с экосистемой ROCm. Да, за последние пару лет совместимость с PyTorch и TensorFlow резко выросла, но тот же llama.cpp, который недавно обновился для поддержки Blackwell с MXFP4, до сих пор не оптимизирован под CDNA 4. Комьюнити ждёт патчей. AMD обещает выпустить открытые драйверы и бэкенды для vLLM и TensorRT-LLM аналогов до конца июня.

Конкуренция накаляется

MI350P выходит на рынок, где уже активно работают Microsoft Maia 200 и Meta MTIA v4. Оба — ASIC'и для инференса, заточенные под конкретные модели гиперскейлеров. AMD же предлагает универсальный ускоритель, который подходит и для open-source моделей, и для кастомных.

Кроме того, Qualcomm AI200 и AI250 тоже метят в ту же нишу, но с упором на энергоэффективность. MI350P с его 350 Вт — золотая середина: не слишком горячо, чтобы требовать жидкостного охлаждения, и не слишком слабо, чтобы быть игрушкой.

Отдельно стоит вспомнить NVIDIA AETHER-X — метод ускорения, который компания рекламирует как 4,9-кратный прирост. Но он требует специально обученных моделей и работает только на B200. AMD же делает ставку на то, что любой open-source мод, сжатый в FP4, полетит на MI350P без танцев с бубном.

Практическая сторона

Для инженеров, собирающих домашние AI-сервера или бюджетные инференс-стойки, MI350P — это подарок. Форм-фактор PCIe Gen5 x16, два слота толщиной, стандартный 8-пиновый разъём питания (один или два — пока уточняется). Примерные рекомендации: для инференса модели в 70B параметров в FP8 достаточно одного MI350P, токен/с — около 120-150. Для сравнения, NVIDIA RTX 5090 (которая тоже умеет инференс) даёт 60-80 токенов на той же модели, но жрёт 575 Вт.

💡

Старт продаж: третья неделя мая 2026. Цена — $8999 за штуку (по предзаказу). В рознице ожидается $10999. AMD обещает, что через полгода цена упадёт до $7499, когда выйдет MI351P.

Интересен подход AMD к памяти: 192 ГБ HBM3e с коррекцией ошибок ECC. Это значит, что модели типа LLaMA-4 120B влезают целиком с запасом. И никаких out-of-memory ошибок, как на 80 ГБ H100.

Недостатки, которые стоит знать

Первое — ROCm. Хотя AMD заявляет, что 95% популярных фреймворков работают «из коробки», сообщество ворчит на баги в драйверах и нестабильность при длительном инференсе. Второе — отсутствие аппаратного декодера видео, так что стриминг или VLM-инференс с видео будут грузить CPU. Третье — это первый PCIe-ускоритель на CDNA 4, и прошивки ещё сырые. Ранние ревьюеры жалуются на сбросы частоты при температуре выше 85°C.

Тем не менее, AMD взяла курс на удешевление AI-инференса. Если они доведут софт до ума, то бесконечный спрос на чипы, о котором говорит TSMC, наконец получит доступное предложение без привязки к NVIDIA. А для тех, кто устал ждать перекрашенных игровых чипов в дата-центрах, MI350P — реальная альтернатива.

Что дальше?

AMD планирует релиз следующего поколения CDNA 5 в 2027 году, но уже сейчас компания закладывает в драйверы функции, которые позволят разделять prefill и decode на разных GPU — трюк, который используют Perplexity и Meta. Если эта фича заработает полностью, MI350P сможет стать основой гибридных кластеров, где часть ускорителей занимается генерацией prompt'ов, а часть — генерацией токенов.

Пока же главный вопрос: сможет ли AMD обойти собственные грабли с драйверами? Если да — мы получим самый доступный профессиональный AI-ускоритель. Если нет — очередной красивый кусок кремния с бенчмарками, которые никто не сможет повторить в реальной жизни.

Как говорится, дьявол в деталях. И в ROCm.

Подписаться на канал

AMD Instinct MI350P: новый ускоритель CDNA 4 для AI-инференса в форм-факторе PCIe