Конец эпохи бескорыстия
Помните 2023-й? Время, когда каждый день появлялся новый open-source проект из университетской лаборатории. vLLM из Беркли был одним из таких — элегантный, быстрый, бесплатный. Он стал де-факто стандартом для запуска LLM вроде Llama 3, Mistral и Mixtral. Разработчики обожали его за простоту и скорость, которая в разы превосходила базовый Hugging Face Transformers.
Теперь это кончилось. На 25 января 2026 года проект официально стал стартапом Inferact. И не просто стартапом — компанией с $150 млн венчурных денег от Sequoia, Andreessen Horowitz и Lightspeed. Основатели — те же аспиранты из Беркли — теперь CEO и CTO с оценкой компании в $1 млрд. И у них есть инвесторы, которые хотят десятикратной отдачи.
Главный вопрос не в том, станет ли Inferact платным. Вопрос в том, как быстро они начнут замедлять open-source версию, чтобы подтолкнуть вас к их облаку.
Что именно они продают?
Inferact — это не просто vLLM как сервис. Это целый стек для инференса, который они называют "инференс-операционной системой". Последняя версия vLLM 0.5.2 (релиз от декабря 2025) уже содержит намеки на будущее:
- Поддержка новых архитектур моделей, включая DeepSeek-R1 и предполагаемую Llama 4 (которая, по слухам, появится в середине 2026).
- Встроенная оптимизация для чипов не-Nvidia — Groq, SambaNova, даже для китайских Ascend.
- Нативная интеграция с их облачным dashboard, который пока можно отключить... но надолго ли?
Их монетизация проста как гвоздь: бесплатно для локального использования с ограничением в 4 запроса в секунду. Все, что выше — или корпоративные функции вроде многопользовательского мониторинга и гарантий SLA — требует подписки от $99/месяц за узел.
Альтернативы? Их почти нет
Вот где становится страшно. Когда вы строите инфраструктуру вокруг инструмента, вы в него вкладываетесь. Тысячи компаний построили свои LLM-пайплайны на vLLM. Переход на что-то другое — это месяцы работы.
Какие варианты?
| Инструмент | Статус на 25.01.2026 | Проблема |
|---|---|---|
| TGI (Hugging Face) | Активно развивается | В 2-3 раза медленнее vLLM, жрет больше памяти |
| TensorRT-LLM (Nvidia) | Только под CUDA | Привязывает к железу Nvidia, конфигурация — боль |
| Ollama | Отлично для локального использования | Не масштабируется на продакшен, нет батчинга |
| Самописное решение | Теоретически возможно | Год разработки, и все равно будет хуже |
Парадокс: vLLM стал жертвой собственного успеха. Он был настолько хорош, что убил конкуренцию. Теперь у него нет реальных соперников в open-source пространстве. Что дает Inferact огромную рыночную власть.
Сценарии на 2026-2027
Я вижу три пути развития:
- Медленное удушение (вероятность 60%). Open-source версия остается, но новые фичи выходят сначала в облаке. Через год vLLM отстает на две версии. Вы либо мигрируете в облако Inferact, либо работаете на устаревшем софте.
- Жесткий форк (вероятность 25%). Сообщество делает форк последней полностью открытой версии (0.5.2). Но без оригинальной команды из Беркли развитие замедлится в 5 раз. Форк умрет через полтора года.
- Неожиданный спаситель (вероятность 15%). Одна из больших компаний — Meta, Microsoft, Google — выпускает собственный inference-движок с открытым кодом и бросает вызов. Но зачем им это? У них свои облака продавать.
Пока вы читаете это, десятки CTO по всему миру проводят emergency meeting. Вопрос на повестке: «Что будем делать с нашим vLLM-стейком?»
Что делать прямо сейчас?
Не паниковать. Но действовать.
Первое — зафризить вашу инфраструктуру на текущей версии vLLM 0.5.2. Сделайте локальные зеркала всех зависимостей. Второе — начать эксперименты с TGI от Hugging Face. Он хуже, но он останется открытым (Hugging Face уже заявили, что не планируют коммерциализировать TGI).
Третье — пересмотреть вашу стратегию развертывания LLM. Возможно, часть workload стоит перенести на облачные API или рассмотреть локальные решения вроде Ollama для нетребовательных задач.
Четвертое — следить за LLMRouter и подобными инструментами. В мире, где inference становится дорогим, роутинг между разными провайдерами станет ключевой компетенцией.
Ирония в том, что успех Inferact может убить экосистему, которая его породила. Если разработчики перестанут доверять open-source инструментам из академии (потому что знают, что их в любой момент коммерциализируют), инновации замедлятся. Кто будет делать следующий vLLM, если он станет просто бесплатным R&D для венчурных фондов?
Конец золотого века
Период 2023-2025 был аномалией. Бесплатные, state-of-the-art инструменты из университетов, которые сразу можно было использовать в продакшене. Это закончилось. Inferact — самый громкий сигнал.
Теперь каждый open-source проект из Стэнфорда, MIT или Беркли будет оцениваться не по качеству кода, а по потенциальной стоимости компании. Студенты будут думать не «как решить интересную проблему», а «какую компанию я смогу основать на этой диссертации».
Это не плохо и не хорошо. Это просто новая реальность. AI-инфраструктура стала слишком ценной, чтобы оставаться бесплатной. Но когда инструменты становятся продуктами, они перестают быть просто инструментами. У них появляются roadmap, монетизация, интересы акционеров.
Ваш ход? Принять правила игры или искать обходные пути. Но не ждите, что vLLM останется таким, каким вы его знали. Он уже умер. Да здравствует Inferact.