Что такое Inferact?

Inferact — это новый стартап, созданный на базе open-source проекта vLLM, самого популярного inference-движка для запуска больших языковых моделей. Компания привлекла $150 млн венчурного финансирования.

Останется ли vLLM бесплатным?

Текущая версия vLLM 0.5.2 (на январь 2026) остается открытой. Однако будущие версии, особенно планируемый релиз vLLM 1.0, вероятно, будут содержать коммерческие элементы или измененную лицензию.

Какие есть альтернативы vLLM в 2026 году?

Основные альтернативы: TGI от Hugging Face (медленнее), TensorRT-LLM от Nvidia (только для CUDA), Ollama (для локального использования, не для продакшена). Ни одна из них не предлагает той же производительности и универсальности, что и vLLM.

vLLM → Inferact: будущее open-source AI-инференса после коммерциализации

Конец эпохи бескорыстия

Помните 2023-й? Время, когда каждый день появлялся новый open-source проект из университетской лаборатории. vLLM из Беркли был одним из таких — элегантный, быстрый, бесплатный. Он стал де-факто стандартом для запуска LLM вроде Llama 3, Mistral и Mixtral. Разработчики обожали его за простоту и скорость, которая в разы превосходила базовый Hugging Face Transformers.

Теперь это кончилось. На 25 января 2026 года проект официально стал стартапом Inferact. И не просто стартапом — компанией с $150 млн венчурных денег от Sequoia, Andreessen Horowitz и Lightspeed. Основатели — те же аспиранты из Беркли — теперь CEO и CTO с оценкой компании в $1 млрд. И у них есть инвесторы, которые хотят десятикратной отдачи.

Главный вопрос не в том, станет ли Inferact платным. Вопрос в том, как быстро они начнут замедлять open-source версию, чтобы подтолкнуть вас к их облаку.

Что именно они продают?

Inferact — это не просто vLLM как сервис. Это целый стек для инференса, который они называют "инференс-операционной системой". Последняя версия vLLM 0.5.2 (релиз от декабря 2025) уже содержит намеки на будущее:

Поддержка новых архитектур моделей, включая DeepSeek-R1 и предполагаемую Llama 4 (которая, по слухам, появится в середине 2026).
Встроенная оптимизация для чипов не-Nvidia — Groq, SambaNova, даже для китайских Ascend.
Нативная интеграция с их облачным dashboard, который пока можно отключить... но надолго ли?

Их монетизация проста как гвоздь: бесплатно для локального использования с ограничением в 4 запроса в секунду. Все, что выше — или корпоративные функции вроде многопользовательского мониторинга и гарантий SLA — требует подписки от $99/месяц за узел.

💡

Прямо сейчас, в январе 2026, vLLM 0.5.2 еще полностью открыт. Но следующий мажорный релиз, vLLM 1.0, который планируется на март, уже будет нести флаг "Powered by Inferact" и, вероятно, изменит лицензию.

Альтернативы? Их почти нет

Вот где становится страшно. Когда вы строите инфраструктуру вокруг инструмента, вы в него вкладываетесь. Тысячи компаний построили свои LLM-пайплайны на vLLM. Переход на что-то другое — это месяцы работы.

Какие варианты?

Инструмент	Статус на 25.01.2026	Проблема
TGI (Hugging Face)	Активно развивается	В 2-3 раза медленнее vLLM, жрет больше памяти
TensorRT-LLM (Nvidia)	Только под CUDA	Привязывает к железу Nvidia, конфигурация — боль
Ollama	Отлично для локального использования	Не масштабируется на продакшен, нет батчинга
Самописное решение	Теоретически возможно	Год разработки, и все равно будет хуже

Парадокс: vLLM стал жертвой собственного успеха. Он был настолько хорош, что убил конкуренцию. Теперь у него нет реальных соперников в open-source пространстве. Что дает Inferact огромную рыночную власть.

Сценарии на 2026-2027

Я вижу три пути развития:

Медленное удушение (вероятность 60%). Open-source версия остается, но новые фичи выходят сначала в облаке. Через год vLLM отстает на две версии. Вы либо мигрируете в облако Inferact, либо работаете на устаревшем софте.
Жесткий форк (вероятность 25%). Сообщество делает форк последней полностью открытой версии (0.5.2). Но без оригинальной команды из Беркли развитие замедлится в 5 раз. Форк умрет через полтора года.
Неожиданный спаситель (вероятность 15%). Одна из больших компаний — Meta, Microsoft, Google — выпускает собственный inference-движок с открытым кодом и бросает вызов. Но зачем им это? У них свои облака продавать.

Пока вы читаете это, десятки CTO по всему миру проводят emergency meeting. Вопрос на повестке: «Что будем делать с нашим vLLM-стейком?»

Что делать прямо сейчас?

Не паниковать. Но действовать.

Первое — зафризить вашу инфраструктуру на текущей версии vLLM 0.5.2. Сделайте локальные зеркала всех зависимостей. Второе — начать эксперименты с TGI от Hugging Face. Он хуже, но он останется открытым (Hugging Face уже заявили, что не планируют коммерциализировать TGI).

Третье — пересмотреть вашу стратегию развертывания LLM. Возможно, часть workload стоит перенести на облачные API или рассмотреть локальные решения вроде Ollama для нетребовательных задач.

Четвертое — следить за LLMRouter и подобными инструментами. В мире, где inference становится дорогим, роутинг между разными провайдерами станет ключевой компетенцией.

Ирония в том, что успех Inferact может убить экосистему, которая его породила. Если разработчики перестанут доверять open-source инструментам из академии (потому что знают, что их в любой момент коммерциализируют), инновации замедлятся. Кто будет делать следующий vLLM, если он станет просто бесплатным R&D для венчурных фондов?

Конец золотого века

Период 2023-2025 был аномалией. Бесплатные, state-of-the-art инструменты из университетов, которые сразу можно было использовать в продакшене. Это закончилось. Inferact — самый громкий сигнал.

Теперь каждый open-source проект из Стэнфорда, MIT или Беркли будет оцениваться не по качеству кода, а по потенциальной стоимости компании. Студенты будут думать не «как решить интересную проблему», а «какую компанию я смогу основать на этой диссертации».

Это не плохо и не хорошо. Это просто новая реальность. AI-инфраструктура стала слишком ценной, чтобы оставаться бесплатной. Но когда инструменты становятся продуктами, они перестают быть просто инструментами. У них появляются roadmap, монетизация, интересы акционеров.

Ваш ход? Принять правила игры или искать обходные пути. Но не ждите, что vLLM останется таким, каким вы его знали. Он уже умер. Да здравствует Inferact.

Из лаборатории в стартап: vLLM становится Inferact и берет $150 млн. Что дальше?