Монополия трещит по швам
До 2025 года разговор про AI-чипы начинался и заканчивался на Nvidia. H100, H200, Blackwell — эти названия знали даже менеджеры среднего звена, никогда не открывавшие терминал. Но что-то сломалось. Цены взлетели до небес, очереди растянулись на кварталы, а крупные облачные провайдеры начали нервно поглядывать по сторонам.
И вот в январе 2026 ситуация изменилась кардинально. Qualcomm анонсировала AI250, Broadcom представила собственные inference-ускорители, а китайские производители вроде Huawei Ascend 910C начали поставлять решения, которые работают — реально работают — в production-средах.
Инференс — это не обучение. Это постоянная нагрузка. Каждый запрос к ChatGPT, каждое сгенерированное изображение Midjourney, каждый ответ Claude 3.7 Sonnet требует вычислений. И если обучение модели — разовая история в несколько миллионов долларов, то инференс — это пожизненная аренда вычислительных мощностей.
Кто во что играет
Разные игроки подходят к проблеме с разных сторон. И это не просто маркетинговые различия — это фундаментально разные архитектурные решения.
| Производитель | Флагманский чип (2026) | Архитектура | Целевой рынок |
|---|---|---|---|
| Nvidia | Vera Rubin | GPU + специализированные тензорные ядра | Обучение и инференс |
| Qualcomm | AI250 | Специализированные тензорные процессоры | Только инференс |
| Broadcom | BAI-3000 | ASIC для конкретных моделей | Крупные облачные провайдеры |
| Huawei | Ascend 910C | Da Vinci архитектура | Китайский рынок, альтернативные цепочки поставок |
Qualcomm: мобильный гигант в серверной стойке
История Qualcomm с AI250 — это классический пример «зайти с фланга». Пока Nvidia совершенствовала GPU для всего подряд, Qualcomm десять лет оттачивала NPU для Snapdragon. Маленькие, энергоэффективные, специализированные чипы для on-device AI.
А потом кто-то в Сан-Диего подумал: «А что если масштабировать эту архитектуру до размеров серверной стойки?»
Результат — AI250, который мы уже обсуждали подробно. Чип, оптимизированный исключительно под инференс. Никаких компромиссов для обучения, никакой поддержки графики. Только вывод моделей, максимально быстро и с минимальным энергопотреблением.
Broadcom: тихий убийца
Broadcom не любит шума. Компания десятилетиями производила сетевые чипы, которые работали в каждом дата-центре, но о которых никто не говорил. Их подход к AI-чипам такой же — тихий, методичный, без хайпа.
BAI-3000 — это не универсальный ускоритель. Это ASIC, заточенный под конкретные модели. Хотите запускать GPT-4.5 Turbo с максимальной эффективностью? Broadcom спроектирует чип, который будет делать только это. И ничего больше.
Звучит ограниченно? Возможно. Но если 80% вашего inference-трафика — это одна модель (а у крупных провайдеров так и есть), то специализированный чип дает 5-7-кратный выигрыш в эффективности. Именно поэтому OpenAI платит $10 млрд Cerebras за аналогичные решения.
Nvidia не сдается
Не думайте, что Nvidia просто наблюдает за этим цирком. Vera Rubin — ответ на всю эту вакханалию. Чип, который переписывает правила игры, как мы писали в ноябре.
Но здесь кроется фундаментальная проблема Nvidia: они пытаются делать все. Обучение, инференс, графика, научные вычисления. Универсальный солдат всегда проигрывает специалисту в его узкой области.
AETHER-X — их попытка ответить. Технология, которая ускоряет LLM-инференс в 4.9 раза. Но это программное решение, а не аппаратное. И оно работает на их же железе.
Куда делся Groq? Nvidia поглотила их за $20 млрд в 2025 году. Одни говорят — гениальный ход по устранению конкурента. Другие — отчаяние. Мы разбирали эту историю, и до сих пор не ясно, была ли это покупка технологии или просто устранение угрозы.
Что это значит для разработчиков?
Абстрактные разговоры о архитектурах — это хорошо. Но что изменится на практике? Вот несколько конкретных вещей, которые почувствуете именно вы:
- Цены упадут. Не сразу, не резко, но тенденция очевидна. Конкуренция всегда снижает цены. Особенно когда появляются специализированные решения для инференса, которые дешевле в производстве, чем универсальные GPU.
- API усложнятся. Вместо единого CUDA появится десяток разных API. Qualcomm SNPE, Broadcom BAI SDK, Huawei CANN. Поддержка всех этих платформ — новая головная боль для ML-инженеров.
- Инференс переместится на edge. Специализированные чипы потребляют меньше энергии. Значит, их можно запихнуть в большее количество устройств. Тренд on-device AI ускорится в разы.
- Появится реальный выбор. Больше не будет ситуации «или Nvidia, или ничего». Особенно для китайских разработчиков, где Huawei Ascend уже работает в production.
Спрос все еще бесконечен
Несмотря на всю эту конкуренцию, фундаментальная проблема никуда не делась. TSMC все еще говорит о «бесконечном спросе».
Qualcomm, Broadcom, Nvidia — все они стоят в одной очереди на производственные мощности TSMC. 3-нм техпроцесс, EUV-литография, дефицит упаковочных материалов. Аппаратные ограничения остаются.
Новые игроки не увеличивают общий объем производства. Они просто перераспределяют его. И если вы думаете, что с появлением Qualcomm AI250 очереди сократятся — забудьте. Они станут другими, но не короче.
Что делать прямо сейчас?
Если вы планируете inference-инфраструктуру на 2026-2027 годы, вот практический совет: не закладывайтесь на одну архитектуру.
Держите код абстрагированным от железа. Используйте промежуточные слои вроде ONNX Runtime, TensorRT-LLM с поддержкой разных бэкендов. Готовьтесь к тому, что через год ваш инференс может работать на совершенно другом железе.
И следите за Broadcom. Тихие компании, которые не кричат о своих продуктах на каждой конференции, часто оказываются теми, кто меняет правила игры. Пока все обсуждают Qualcomm и Nvidia, Broadcom уже поставляет свои BAI-3000 в три крупнейших облачных провайдера. Без пресс-релизов, без хайпа. Просто работа.
Монополия Nvidia закончилась. Это факт. Но война за AI-чипы только начинается. И главное поле битвы — не обучение моделей, а их использование. Тот, кто выиграет в инференсе, выиграет все.
А пока — тестируйте разные платформы, не привязывайтесь к одному вендору и помните: через два года ваш inference-пайплайн будет выглядеть совершенно иначе. И это хорошо.