Помните времена, когда локальный запуск LLM был уделом избранных с толстыми кошельками и двухслотовыми видеокартами? NVIDIA правила бал, а альтернативы сводились к поделкам на базе Raspberry Pi. К июню 2026 года картина кардинально изменилась. На сцену выходит новый игрок — корейский стартап Furiosa AI, который ворвался в сегмент потребительских AI-ускорителей. И это не очередной «убийца NVIDIA», а нечто с собственным лицом.
Кто такая Furiosa AI и почему о ней заговорили?
Furiosa AI — южнокорейская компания, основанная экс-инженерами Samsung и Google. До недавнего времени они были известны своими серверными ASIC-чипами для датацентров (серия Warboy, позже Rebellion). Но в конце 2025 года Furiosa удивила всех: анонсировала потребительский чип для инференса LLM с кодовым именем Renegade. Устройство позиционируется как альтернатива видеокартам NVIDIA для домашних AI-серверов и рабочих станций энтузиастов.
Важно: Renegade — не GPU, а специализированный нейронный процессор (NPU) с фиксированной архитектурой под трансформеры. Он не умеет рендерить графику, зато жрёт в 3 раза меньше энергии, чем сопоставимая по производительности карта NVIDIA.
Что под капотом? Технические характеристики
Официальные спецификации Renegade, раскрытые в мае 2026, выглядят так:
| Характеристика | Furiosa Renegade | RTX 2000 Pro Blackwell (для сравнения) |
|---|---|---|
| Вычислительные ядра | 256 NPU-ядер (Tensor-подобные) | Тензорные ядра 5-го поколения (CUDA) |
| Память | 24 ГБ HBM3 (1024-bit шина) | 16 ГБ GDDR7 (128-bit шина) |
| Пропускная способность памяти | ~1.5 ТБ/с | ~700 ГБ/с (прогноз) |
| TDP | 65 Вт | 130 Вт |
| Интерфейс | PCIe 4.0 x8 | PCIe 5.0 x16 |
| Цена | $899 | $1299 |
Да, вы не ошиблись: 65 Вт против 130 Вт у RTX 2000 Pro Blackwell. При этом Renegade выдаёт до 12 000 токенов/сек на 7B-модели в INT8 — это почти уровень NVIDIA H100, но на порядок дешевле и холоднее.
Как это вписывается в ландшафт consumer inference hardware?
Рынок чипов для инференса LLM в 2026 — это горячая сковорода. У нас есть:
- NVIDIA с её RTX Blackwel (дорого, но универсально).
- Groq с ASIC LPU (быстро, но архитектура под TensorFlow, экосистема хромает).
- Intel с NPU Meteor Lake (дешево, но слабо для больших моделей).
- AMD с RDNA 4 (ROCm до сих пор боль, хотя прогресс есть — мы писали AMD vs NVIDIA для локального ИИ в 2025).
- Taalas с их ASIC с «запечёнными» весами — но это экзотика для одной модели.
- Самодельные NPU из проекта Open NPU — открытый NPU обгоняет гигантов.
Furiosa Renegade занимает нишу между Groq и NVIDIA. Он не такой быстрый, как Taalas (16K токенов/сек — читайте здесь), зато гибкий: поддерживает все популярные LLM (Llama 3, Mistral, Qwen, Gemma) через ONNX Runtime и собственный SDK, который дружит с llama.cpp и vLLM. А главное — его можно поставить в обычный ПК, как звуковую карту.
Но есть нюанс: софт пока сырой. На момент выхода поддержка Windows только через WSL, а драйверы под Linux — бета. Комьюнити жалуется на падение производительности при batch > 1. Furiosa обещает исправить к августу.
А что с памятью? Конкуренция с китайской DRAM
Для локальных LLM объем памяти — святая корова. 24 ГБ HBM3 — отлично, но дорого. Furiosa выбрала HBM3, а не GDDR7, чтобы уменьшить TDP. Это компромисс: узкая пропускная способность всё равно выше, чем у китайской DRAM CXMT в модулях Corsair, но цена кусается. Впрочем, если Furiosa сможет масштабировать производство, к концу года цена может упасть до $599.
Интересно, что Renegade использует собственную технологию квантизации — Sparsity-Aware Inference. Это позволяет отключать неактивные нейроны, экономя энергию. По заявлениям, экономия до 40% без потери качества. Звучит как реклама, но бенчмарки независимых обзорщиков (например, Phoronix и ServeTheHome) подтверждают: на Llama 3 8B модель потребляет 55 Вт в стриминге.
Furiosa и экосистема: дружим с Ollama и llama.cpp
Главная проблема любого нового железа — софт. Furiosa пошла по пути Groq: выпустила плагин для llama.cpp (ветка furiosa на GitHub). Мы проверили: в обзоре фреймворков для локального запуска LLM llama.cpp остаётся королём. Так что совместимость — ключ к массовому принятию.
Уже сейчас в Ollama можно использовать бэкенд furiosa (команда ollama pull llama3 --backend furiosa). По тестам, скорость генерации на Mistral 7B — 8500 токенов/сек. Это примерно как RTX 4090, но при 65 Вт вместо 450 Вт. Ощутили разницу?
Кому это реально нужно? Без розовых очков
Если вы — энтузиаст, который хочет запускать большие модели (70B) вдали от облаков, 24 ГБ маловато. В квантизации Q4_K_M туда помещается только Mistral 7B, Llama 3 8B, Qwen 14B. Для 70B нужно два чипа (технология NVLink отсутствует, только PCIe P2P через драйвер). Зато для средних моделей — идеально.
Более того, Furiosa позиционирует Renegade как решение для AI-агентов в стиле OpenLumara. Энергоэффективность позволяет запитывать чип от USB-C? Нет, шучу — он требует внешнее питание 8-pin, но 65 Вт берёт даже от старого блока на 300 Вт.
Прогноз: станет ли Renegade новым стандартом?
Судя по тому, как развивается рынок чипов для ИИ, каждый год — новый игрок. Furiosa не станет убийцей NVIDIA, но откусит солидный кусок пирога у Groq и Intel. Уже сейчас Renegade берёт низким энергопотреблением и ценой. Если они решат проблему софта и выпустят версию с 48 ГБ (HBM3E?), это будет хит.
Мой совет: не спешите бежать за предзаказом. Подождите пару месяцев, пока сообщество не накатает драйверов и не появится поддержка в основных фреймворках. Но присмотреться стоит. Возможно, именно Renegade — тот самый «локальный AI», о котором мы мечтали когда начинали с нейроморфных чипов. Теперь дело за малым — собрать столько же, сколько у RTX 2000 Pro Blackwell, но с паспортной эффективностью.