Битва титанов: 128 ГБ — это предел?
Когда AMD выпустила Strix Halo, сообщество LocalLLaMA дружно выдохнуло: наконец-то можно запускать 70-миллиардные модели на ноутбуке, не прибегая к облачным кредитам. Unified memory с пропускной способностью до 256 ГБ/с казалась манной небесной. Но прошел год, и на сцену выходит Gorgon Halo — следующий шаг AMD в нише AI-все-в-одном. Вопрос, который сейчас разрывает ветки Reddit и форумы: стоит ли отдавать еще одну почку за апгрейд? Спойлер: ответ сложнее, чем кажется.
Ключевое отличие Gorgon Halo — не просто больше ядер, а полностью переработанный контроллер памяти. Если Strix Halo использовал LPDDR5X с максимальным объемом 128 ГБ, то Gorgon Halo переходит на LPDDR6 с теоретической пропускной способностью до 480 ГБ/с. Это удвоение — главный козырь для тех, кто мучается с загрузкой больших LLM.
Но давайте честно: 128 ГБ Strix Halo — это уже роскошь. В нашем гайде по выбору квантований мы подробно разобрали, как уместить Qwen3-Coder-Next 80B или Kimi Linear 48B в эти рамки. Реальность такова: большинство локальных сценариев — инференс Q4_K_M 70B, запуск помощника для кода — Strix Halo справляется на ура. Проблемы начинаются, когда вы хотите больше: например, запустить две 70B модели одновременно или взяться за тонкий тюнинг LoRA.
Тонкошовная магия пропускной способности
Давайте в цифрах. На Strix Halo 128 ГБ вы можете запускать Mixtral 8x22B (Q4_K_M) с памятью ~62 ГБ и скоростью 8-10 токенов/с. Приличный результат для локального инференса. Но при попытке прогнать всю серию тестов MiniMax-M2.1 вы упираетесь в bandwidth: GPU-ядра Strix (RDNA 3.5) часто простаивают, ожидая данные. Vulkan против ROCm — это не просто выбор драйвера, это битва за загрузку контекста.
Gorgon Halo обещает скачок: 480 ГБ/с против 256 ГБ/с. В пересчете на конкретные модели это означает, что тот же Mixtral сможет выдавать 18-22 токена/с. Разница ощутимая. Но есть нюанс: сам объем памяти остался прежним — 128 ГБ. AMD решила не гнаться за количеством, а сосредоточилась на скорости. И это разумно, если вы не пытаетесь запихнуть в APU два 120B-монстра.
Важный компромисс: Gorgon Halo, по данным AMD, использует более агрессивный теплопакет — от 85 до 130 Вт в зависимости от конфигурации. Это на 15-20 Вт больше, чем Strix Halo. Для ноутбуков — серьезное испытание для системы охлаждения. Для мини-ПК — ожидаемо.
Рендер-ферма в кармане? Скорее, суперкомпьютер для одного
Когда мы тестировали гибридный кластер с eGPU для prefill и Strix Halo для декодирования, мы заметили одну закономерность: узким местом всегда оставалась шина между процессором и видеокартой. Gorgon Halo эту проблему решает радикально — все внутри одного кристалла. Никаких PCIe ограничений, никаких бутылочных горлышек. Для AI-нагрузок это почти идеал.
Но стоит ли это денег? На момент мая 2026 года системы на Gorgon Halo стоят на 60-80% дороже аналогичных конфигураций на Strix Halo. Если вы разработчик, которому нужна локальная AI-лаборатория для LoRA и инференса — возможно, Strix Halo в связке с RTX 5080 (через eGPU) окажется хитрее. Но если вам нужно максимальное быстродействие без внешних карт и с единой памятью — Gorgon Halo не имеет альтернатив.
Кстати, если думаете, что 128 ГБ — это много, вспомните про Helix 02 от Figure AI: роботы, управляемые LLM, требуют не только логики, но и потокового видео с камер. Gorgon Halo в этом контексте выглядит как готовый мозг для автономных систем.
Кому апгрейд необходим, а кому — пустая трата
Давайте без иллюзий. Если вы уже владелец системы на Strix Halo и довольны скоростью инференса 7-10 токенов/с — бежать за Gorgon Halo не стоит. Ни одна 80B модель не станет магически работать в два раза быстрее только из-за новой архитектуры. Пропускная способность — да, прирост будет, но он не критичен для текстовых задач.
Но если вы:
- Работаете с мультимодальными моделями (видео + текст) — каждая гигабайт в секунду счет ведет
- Запускаете continuous batching на маленьком сервере — Gorgon Halo вытянет 4-8 параллельных запросов там, где Strix захлебнется
- Планируете тонкий тюнинг LoRA на моделях 70B+ — узкое место Strix в пропускной способности памяти вылезает именно при обучении
В этих сценариях Gorgon Halo не просто оправдан — он единственный вменяемый выбор, если не хотите ставить стойку с серверными GPU.
Кстати, в статье про Strix Halo в деле мы наглядно показали разницу между Qwen3-Coder Next и Kimi Linear 48B. На Gorgon Halo обе модели будут летать — даже без перехода на Q3_K_XL, который, как выяснилось, раскрывает карты Vulkan vs ROCm.
Вердикт: брать или не брать?
Gorgon Halo — это не эволюция, а скорее точечный удар по узкому месту. AMD четко понимала: Strix Halo уперся в bandwidth, и просто добавлять ядра было бессмысленно. Удвоение пропускной способности памяти — единственный способ оторваться от конкурентов вроде Apple M4 Ultra (который тоже не дремлет).
Но есть один неочевидный плюс Gorgon Halo, который редко озвучивают: он убивает необходимость в eGPU. Если вы мучились с гибридным кластером, пытаясь разгрузить prefill на внешней карте, то новая APU избавит вас от этой головной боли. Все помещается внутри — и это прекрасно.
Лично я бы посоветовал: если у вас уже есть система на Strix Halo, и она выполняет 90% ваших задач — не гонитесь за цифрами. Подождите следующего поколения, где, возможно, AMD добавит и объем памяти. А вот если вы строите новую AI-лабораторию с нуля — Gorgon Halo с его 480 ГБ/с станет фундаментом, который не устареет ближайшие два года.
Ну а для тех, кто дочитал до конца — лайфхак: на момент выхода Gorgon Halo цены на б/у Strix Halo просядут. Если не гонитесь за абсолютной производительностью, но хотите локальный LLM-сервер — присмотритесь к бывшим в употреблении Strix. Их еще можно найти с гарантией, и они справятся с 95% AI-задач. Сэкономленные деньги лучше потратьте на хорошую систему охлаждения — и Strix, и Gorgon греются так, что хоть яичницу жарь.