Ryzen AI Max+ 495 192GB VRAM: прорыв для локальных LLM или игрушка для богатых? | AiManual
AiManual Logo Ai / Manual.
04 Май 2026 Новости

Ryzen AI Max+ 495 с 192GB VRAM: прорыв для локальных LLM или только для богатых?

AMD представила Ryzen AI Max+ 495 с невероятными 192 ГБ унифицированной памяти. Выясняем, что это даёт для локального запуска LLM и кому такой процессор реально

192 гигабайта на кристалле — это вообще законно?

Когда в конце апреля 2026 года AMD официально подтвердила характеристики своего флагманского APU Ryzen AI Max+ 495 (кодовое имя Gorgon Halo), я сначала подумал, что это опечатка в пресс-релизе. Ну seriously: интегрированная графика, способная адресовать до 192 ГБ из общей оперативной памяти, плюс 40 вычислительных блоков RDNA 3.5 — это звучит как фантастика. Но нет, инженеры AMD действительно запихнули в один чип 16 ядер Zen 6, графику уровня RTX 4070 и, самое главное, возможность выделить под видеопамять до 96% от 192 ГБ DDR5. То есть полноценные ~184 ГБ, доступных для AI-инференса без единого дискретного ускорителя.

Вспомните, как мы мучились со сборками на трёх RTX 3090 и eGPU, чтобы получить жалкие 96 ГБ VRAM — а тут почти вдвое больше в одном потребительском устройстве. Но есть нюанс. Такой объём унифицированной памяти — это благо для больших моделей, но цена кусается.

Важный контекст: Ryzen AI Max+ 495 — это не дискретный графический процессор, а APU с максимальной мощностью 120 Вт. Вся память является общей, и для LLM критически важна пропускная способность, которая составляет ~200 ГБ/с (по слухам). Это намного меньше, чем у RTX 4090 (1008 ГБ/с), но больше, чем у бюджетных карт.

Что можно запустить на 192 ГБ без квантования?

Это главный вопрос. На практике 192 ГБ VRAM — это рай для энтузиаста, который хочет запускать модели вроде Llama 4 405B в 4-битной версии (ей нужно ~150 ГБ), или даже 70B-ки в 16-битной точности. Полный список:

  • Llama 4 405B (4-bit) — ~150 ГБ — умещается с запасом.
  • Mixtral 8x22B (8-bit) — ~85 ГБ — легко, можно держать ещё одну модель.
  • CodeGemma 2 90B (16-bit) — 180 ГБ — почти предел, но реально.
  • CLIP + LLM для мультимодальных задач — комфортно.

Сравните с нашим недавним разбором RTX Pro 6000 vs. RTX 4090, где RTX Pro 6000 с 48 ГБ не мог уместить 70B без квантования. Здесь же — радикально иной уровень.

Но скорость генерации будет ограничена пропускной способностью памяти: ожидайте около 10-15 токенов/с для 405B — в два-три раза медленнее, чем на RTX 4090 с той же моделью в 4-bit. Однако для локального использования это приемлемо.

Прорыв для переносных AI-станций

Самая крутая фишка — форм-фактор. Ryzen AI Max+ 495 встраивается в ноутбуки типа «рабочая станция» (например, ASUS ROG Flow 2026 с 18-дюймовым экраном). Представьте: вы носите в рюкзаке устройство, способное запускать Llama 4 405B локально, без интернета. Это переворачивает концепцию AI-агентов. Раньше локальный запуск больших моделей требовал громоздких десктопов или серверов. Теперь — один ноутбук.

Техническая оговорка: чтобы получить 192 ГБ, нужно установить два модуля DDR5 по 96 ГБ в систему с 4 каналами (что есть в этом APU). Ноутбуки с таким объёмом памяти будут весить под 3 кг и стоить как подержанный автомобиль.

Кому это реально нужно — и кто заплатит?

Давайте отрезвим хайп. Цена такого ноутбука с Ryzen AI Max+ 495, 192 ГБ ОЗУ и топовым SSD стартует от $5 500. Это прямая конкуренция с MacBook Pro M4 Ultra (который тоже может иметь до 192 ГБ унифицированной памяти). Но Mac — ARM, а тут x86 с полной поддержкой CUDA-эмуляции через ROCm. Насколько AMD догоняет NVIDIA?

В нашем гайде по выбору GPU для первого AI-PC (RTX 5060 Ti vs RX 9060 XT) мы отмечали, что экосистема AMD пока не дотягивает до NVIDIA, но для инференса она уже адекватна. С Ryzen AI Max+ 495 ситуация похожая: для чистого инференса модель хорошо поддерживается llama.cpp и ExLlamaV2 через Vulkan/OpenCL. Но для тонкой настройки (fine-tuning) придётся использовать Pytorch с HIP SDK — и тут много «граблей».

Поэтому нишевость огромна. Это не массовый продукт для «запустить ChatGPT дома». Это инструмент для исследователей, разрабов AI-агентов, которые хотят тестировать модели локально без затрат на облачные API, или для компаний, работающих с чувствительными данными, которые нельзя передавать в дата-центры.

Сравнение с альтернативами: что мы теряем и что приобретаем?

Для наглядности соберём табличку, как это соотносится с известными конфигурациями:

КонфигурацияДоступная VRAMПропускная способностьЦена (примерно)
Ryzen AI Max+ 495 (96 ГБ)~92 ГБ~200 ГБ/с$3 500 (ноутбук)
Ryzen AI Max+ 495 (192 ГБ)~184 ГБ~200 ГБ/с$5 500+ (ноутбук)
Desk: 3× RTX 3090 (eGPU)72 ГБ (с доп. 24 ГБ)~936 ГБ/с (суммарно)~$3 000 (б/у карты)
RTX Pro 6000 (1 карта)48 ГБ960 ГБ/с$6 500

Как видите, по объёму VRAM новинка AMD доминирует. Но по пропускной способности проигрывает даже старой RTX 3090 в SLI. А если учесть, что та же лоу-квантованная модель на RTX Pro 6000 будет генерировать токены в 2-3 раза быстрее, то компромисс очевиден: либо вы ставите эксперимент с очень большой моделью, где скорость не важна, либо вам нужно быстрое выполнение — тогда остаётесь на NVIDIA.

Альтернатива — собрать ПК для локальных LLM за копейки, как мы описывали в статье про 3× RTX 3090 и eGPU на 96 ГБ VRAM. За те же $3 000 вы получаете 96 ГБ, но с пропускной способностью в 4-5 раз выше. А ещё можно собрать бюджетную AI-станцию на Ryzen с 128 ГБ ОЗУ (наша инструкция) — это даст до 80 ГБ под модели через DirectML, но с низкой скоростью.

Судьба Ryzen AI Max+ 495: инновация или показуха?

Через полгода, к осени 2026, когда появятся первые массовые ноутбуки с этим APU, рынок разделится на два лагеря. Одни скажут: «Наконец-то можно запустить локальный DeepSeek-R1 671B без облака». Другие: «За 5 тысяч баксов я лучше возьму Mac Pro и буду спать спокойно».

Правда, как всегда, посередине. Если вам нужно 192 ГБ в одном устройстве — это уникальное предложение. Но готовы ли вы мириться с низкой скоростью при инференсе больших моделей и незрелым софтом? Или лучше взять AMD R9700 с 96 ГБ VRAM за $2 000 и иметь запас на upgrade? Решайте.

Лично я считаю, что это прорыв, но только для тех, кто действительно использует сценарии, где объём памяти — единственное узкое место. Для 95% энтузиастов, которые запускают 70B модель с 4-bit квантованием, хватит и 48 ГБ. А вот для работы над большими мультимодальными агентами с длинным контекстом (128k+ токенов) — это находка. И не забывайте: реальная потребность в VRAM постоянно растёт, и 192 ГБ сегодня — это запас на будущее.

Подписаться на канал