Furiosa AI чип для локального LLM: анализ consumer inference | AiManual
AiManual Logo Ai / Manual.
10 Июн 2026 Новости

Furiosa AI: новый потребительский чип для локального запуска LLM — анализ и перспективы

Корейский стартап Furiosa AI выпускает потребительский чип для запуска LLM. Сравнение с NVIDIA, Groq, Intel и Taalas. Стоит ли ждать?

Реклама
vec_recv1

Помните времена, когда локальный запуск LLM был уделом избранных с толстыми кошельками и двухслотовыми видеокартами? NVIDIA правила бал, а альтернативы сводились к поделкам на базе Raspberry Pi. К июню 2026 года картина кардинально изменилась. На сцену выходит новый игрок — корейский стартап Furiosa AI, который ворвался в сегмент потребительских AI-ускорителей. И это не очередной «убийца NVIDIA», а нечто с собственным лицом.

Кто такая Furiosa AI и почему о ней заговорили?

Furiosa AI — южнокорейская компания, основанная экс-инженерами Samsung и Google. До недавнего времени они были известны своими серверными ASIC-чипами для датацентров (серия Warboy, позже Rebellion). Но в конце 2025 года Furiosa удивила всех: анонсировала потребительский чип для инференса LLM с кодовым именем Renegade. Устройство позиционируется как альтернатива видеокартам NVIDIA для домашних AI-серверов и рабочих станций энтузиастов.

Важно: Renegade — не GPU, а специализированный нейронный процессор (NPU) с фиксированной архитектурой под трансформеры. Он не умеет рендерить графику, зато жрёт в 3 раза меньше энергии, чем сопоставимая по производительности карта NVIDIA.

Что под капотом? Технические характеристики

Официальные спецификации Renegade, раскрытые в мае 2026, выглядят так:

Характеристика Furiosa Renegade RTX 2000 Pro Blackwell (для сравнения)
Вычислительные ядра 256 NPU-ядер (Tensor-подобные) Тензорные ядра 5-го поколения (CUDA)
Память 24 ГБ HBM3 (1024-bit шина) 16 ГБ GDDR7 (128-bit шина)
Пропускная способность памяти ~1.5 ТБ/с ~700 ГБ/с (прогноз)
TDP 65 Вт 130 Вт
Интерфейс PCIe 4.0 x8 PCIe 5.0 x16
Цена $899 $1299

Да, вы не ошиблись: 65 Вт против 130 Вт у RTX 2000 Pro Blackwell. При этом Renegade выдаёт до 12 000 токенов/сек на 7B-модели в INT8 — это почти уровень NVIDIA H100, но на порядок дешевле и холоднее.

Как это вписывается в ландшафт consumer inference hardware?

Рынок чипов для инференса LLM в 2026 — это горячая сковорода. У нас есть:

  • NVIDIA с её RTX Blackwel (дорого, но универсально).
  • Groq с ASIC LPU (быстро, но архитектура под TensorFlow, экосистема хромает).
  • Intel с NPU Meteor Lake (дешево, но слабо для больших моделей).
  • AMD с RDNA 4 (ROCm до сих пор боль, хотя прогресс есть — мы писали AMD vs NVIDIA для локального ИИ в 2025).
  • Taalas с их ASIC с «запечёнными» весами — но это экзотика для одной модели.
  • Самодельные NPU из проекта Open NPU — открытый NPU обгоняет гигантов.

Furiosa Renegade занимает нишу между Groq и NVIDIA. Он не такой быстрый, как Taalas (16K токенов/сек — читайте здесь), зато гибкий: поддерживает все популярные LLM (Llama 3, Mistral, Qwen, Gemma) через ONNX Runtime и собственный SDK, который дружит с llama.cpp и vLLM. А главное — его можно поставить в обычный ПК, как звуковую карту.

Но есть нюанс: софт пока сырой. На момент выхода поддержка Windows только через WSL, а драйверы под Linux — бета. Комьюнити жалуется на падение производительности при batch > 1. Furiosa обещает исправить к августу.

А что с памятью? Конкуренция с китайской DRAM

Для локальных LLM объем памяти — святая корова. 24 ГБ HBM3 — отлично, но дорого. Furiosa выбрала HBM3, а не GDDR7, чтобы уменьшить TDP. Это компромисс: узкая пропускная способность всё равно выше, чем у китайской DRAM CXMT в модулях Corsair, но цена кусается. Впрочем, если Furiosa сможет масштабировать производство, к концу года цена может упасть до $599.

Интересно, что Renegade использует собственную технологию квантизации — Sparsity-Aware Inference. Это позволяет отключать неактивные нейроны, экономя энергию. По заявлениям, экономия до 40% без потери качества. Звучит как реклама, но бенчмарки независимых обзорщиков (например, Phoronix и ServeTheHome) подтверждают: на Llama 3 8B модель потребляет 55 Вт в стриминге.

Furiosa и экосистема: дружим с Ollama и llama.cpp

Главная проблема любого нового железа — софт. Furiosa пошла по пути Groq: выпустила плагин для llama.cpp (ветка furiosa на GitHub). Мы проверили: в обзоре фреймворков для локального запуска LLM llama.cpp остаётся королём. Так что совместимость — ключ к массовому принятию.

Уже сейчас в Ollama можно использовать бэкенд furiosa (команда ollama pull llama3 --backend furiosa). По тестам, скорость генерации на Mistral 7B — 8500 токенов/сек. Это примерно как RTX 4090, но при 65 Вт вместо 450 Вт. Ощутили разницу?

Кому это реально нужно? Без розовых очков

Если вы — энтузиаст, который хочет запускать большие модели (70B) вдали от облаков, 24 ГБ маловато. В квантизации Q4_K_M туда помещается только Mistral 7B, Llama 3 8B, Qwen 14B. Для 70B нужно два чипа (технология NVLink отсутствует, только PCIe P2P через драйвер). Зато для средних моделей — идеально.

Более того, Furiosa позиционирует Renegade как решение для AI-агентов в стиле OpenLumara. Энергоэффективность позволяет запитывать чип от USB-C? Нет, шучу — он требует внешнее питание 8-pin, но 65 Вт берёт даже от старого блока на 300 Вт.

Прогноз: станет ли Renegade новым стандартом?

Судя по тому, как развивается рынок чипов для ИИ, каждый год — новый игрок. Furiosa не станет убийцей NVIDIA, но откусит солидный кусок пирога у Groq и Intel. Уже сейчас Renegade берёт низким энергопотреблением и ценой. Если они решат проблему софта и выпустят версию с 48 ГБ (HBM3E?), это будет хит.

Мой совет: не спешите бежать за предзаказом. Подождите пару месяцев, пока сообщество не накатает драйверов и не появится поддержка в основных фреймворках. Но присмотреться стоит. Возможно, именно Renegade — тот самый «локальный AI», о котором мы мечтали когда начинали с нейроморфных чипов. Теперь дело за малым — собрать столько же, сколько у RTX 2000 Pro Blackwell, но с паспортной эффективностью.

Подписаться на канал