Тихая революция, пока все смотрели на OpenAI
Март 2026 года. Пока ваша лента забита анонсами очередной мультимодальной модели, в мире AI-железа и софта произошли три вещи, которые перевернут ваш стэк с ног на голову. NVIDIA сдалась и открыла код. Cursor начал говорить на китайском. А SambaNova выпустила чип, от которого в Санта-Кларе началась легкая паника.
Это не просто новости. Это признаки того, что эпоха монополий заканчивается. Инфраструктура для ИИ становится разнообразной, открытой и немного безумной. Пора разобраться, что к чему.
NVIDIA DRA 2.5: когда Kubernetes победил, а NVIDIA смирилась
Годами развертывание моделей на GPU в кубернетесе было чем-то вроде цирка с тиграми. Писал свои Device Plugin, молился, чтобы драйверы не сломались после обновления. В начале 2026 NVIDIA официально открыла исходники драйвера DRA (Device Plugin for Kubernetes) в версии 2.5. Это не апдейт. Это капитуляция.
nvidia-docker2.Зачем это NVIDIA? Ответ прост: рынок инфраструктуры дробится. AWS, Google и Microsoft вовсю пилят свои чипы. Удерживать лидерство только железом — глупо. Теперь NVIDIA продает экосистему. DRA 2.5 — это клей, который привязывает вас к их стеку, даже если вы хотите использовать сторонние ускорители. Гениально и немного цинично.
На практике это значит, что оркестрация смешанных нагрузок (обучение на A100, инференс на T4) становится тривиальной задачей. Вы описываете ресурсы в манифесте, как и для CPU. Kubernetes сам распределяет. Звучит как утопия? Почти. Но теперь это работает.
Cursor и китайские модели: новый стандарт для разработки
Cursor AI к 2026 году съел половину рынка IDE для ML-инженеров. Их фишка — глубокая интеграция AI-ассистента прямо в редактор. Но до марта выбор моделей был скучным: GPT-4, Claude 3, может быть, открытый Llama. Сейчас в настройках появилась вкладка «China Stack».
По умолчанию доступны Qwen 3.0 (1024K контекст) и DeepSeek Coder V3. Чуть позже обещают Baichuan 4 и GLM-4. Зачем это нужно? Цена и специализация. Qwen 3.0 для диалога и анализа кода в разы дешевле GPT-4 Turbo, а DeepSeek Coder V3 по части рефакторинга Python бьет многие западные аналоги. И да, они работают локально, если у вас есть домашний сервер с GPU.
Юридический нюанс: использование китайских моделей для коммерческих проектов вне Китая может требовать дополнительных соглашений. Cursor решает это через партнерские прокси-сервера, но читайте лицензии.
Это стратегический удар по гегемонии США в области LLM. Разработчики из Азии и Европы теперь имеют альтернативу, которая не зависит от политических ветров. Американские модели все еще сильнее в креативе, но для рутинной работы — китайский софт стал реальным конкурентом.
SambaNova SN40: чип, который не пытается быть GPU
Пока все гонялись за флопсами, SambaNova пошла другим путем. Их новый чип SN40, анонсированный в феврале 2026, — это не «GPU-убийца». Это реконфигурируемая архитектура (Reconfigurable Dataflow Architecture), которая меняет саму логику вычислений для каждой модели.
Проще говоря, вместо того чтобы гонять данные через фиксированные тензорные ядра, как в NVIDIA, чип SN40 подстраивает свою «железную» схему под граф вычислений конкретной модели — например, под Nemotron-3 с FP4. Результат? В 3-5 раз выше энергоэффективность на инференсе по сравнению с B200 и отсутствие необходимости в сложных компиляторах вроде TensorRT.
| Параметр | NVIDIA B200 | SambaNova SN40 | Комментарий |
|---|---|---|---|
| Пиковая производительность (INT8) | 20 PFLOPS | 12 PFLOPS | SN40 проигрывает в синтетике |
| Энергоэффективность (инференс, GPT-4 класс) | 1x (база) | 3.5x | Здесь SN40 выигрывает чистую |
| Поддержка софта | CUDA, весь стэк NVIDIA | PyTorch/XLA, ограниченные фреймворки | Главная слабость SambaNova |
Проблема, как всегда, в софте. Мигрировать с CUDA на стэк SambaNova — боль. Но если вы запускаете одну модель миллионы раз (например, рекомендательную систему), то экономия на электричестве окупит миграцию за полгода. Это напоминает историю с Microsoft Maia 200, только с более радикальной архитектурой.
Что делать прямо сейчас? Неочевидные советы
Если вы инженер инфраструктуры, заведите тестовый кластер с Kubernetes 1.30 и DRA 2.5. Поиграйтесь с MIG. Увидите, как легко теперь можно изолировать продакшн-инференс от экспериментальных нагрузок. Это избавит вас от ночных звонков, когда тренировочная задача сожрала все GPU.
Если вы разработчик, включите Qwen 3.0 в Cursor для рутинных задач — написание документации, генерация типовых функций. Сэкономите на токенах и откроете для себя, что китайские модели не так уж плохи. Для креатива пока держите GPT-4.
Если вы принимаете решения по железу, не ведитесь на маркетинг «флопсов за доллар». Посчитайте TCO (Total Cost of Ownership) для вашей конкретной модели. Возможно, Qualcomm AI250 или SambaNova SN40 дадут большую выгоду, чем очередной сервер на B200. Мир AI-инфраструктуры перестал быть черно-белым. И это самое интересное, что произошло в 2026 году.