Baseten привлек $1.5B: что это значит для выбора AI-инференса в 2026

$1.5 миллиарда на то, чтобы модель не тормозила

Когда Baseten объявил о закрытии раунда на полтора миллиарда долларов, многие протерли глаза. Еще пара лет назад стартап был малоизвестным поставщиком GPU-мощностей, а сейчас — единорог с оценкой, сопоставимой с половиной DataBricks. Но сумма не единственная аномалия. Структура сделки — split-priced round — говорит о том, что инвесторы с пеной у рта спорят о будущем inference-инфраструктуры. Одни готовы платить премию за эксклюзивный доступ к железу, другие — задешево залететь в компанию с риском, что рынок рухнет. И те, и другие правы по-своему.

Почему именно Baseten? Потому что они первыми догадались: мало обучить GPT-5 размером с галактику — нужно еще и серваки под это дело найти. Парадокс Джевонса работает на полную: чем дешевле становятся токены, тем больше их хотят генерировать. И если раньше все думали об обучении, то теперь деньги хлынули в исполнение.

По данным источников, раунд был разделен на две части: первая — $1 млрд от фондов, оценивающих компанию в $12 млрд, вторая — $500 млн от стратегических инвесторов (включая производителей чипов) с 20% дисконтом в обмен на долгосрочные контракты на поставку GPU.

Роутинг запросов как убийца затрат

Главная «фишка» Baseten, за которую им прощают все грехи стартапа — динамический роутинг запросов. Вместо того чтобы слать всё на одну и ту же H100, их система смотрит на задачу: если пользователь попросил «анекдот про Вовочку», маршрутизатор кинет это на дешевый Llama-3B, а если «напиши диплом по квантовой физике» — то на дорогой GPT-5 или Grok-4. Результат — средняя стоимость токена падает в 3-5 раз без потери качества. Именно эта технология заставила инвесторов раскошелиться.

Но Baseten не одинок. OpenAI платит $10 млрд Cerebras за их чипы для inference — и это только цветочки. Рынок явно двигается к специализированному железу и софту, который умеет перекидывать запросы между разными моделями в реальном времени.

Open-source — не благотворительность, а способ не прогореть

В той же презентации Baseten для инвесторов была диаграмма: их платформа поддерживает более 200 open-source моделей — от Mistral-7B до Command R+. И это не из любви к искусству. Каждый раз, когда вы запускаете проприетарную модель (GPT-4o, Claude Opus), провайдер платит лицензионные отчисления разработчику. С open-source таких отчислений нет, чистая маржа. Как отмечает Jennifer Li из a16z, тренд на open-source в инфраструктуре перешел из «модного» в «экономически необходимый».

Но есть обратная сторона: open-source модели требуют больше ума для настройки роутинга. Ошибка — и пользователь получит чушь вместо осмысленного текста. Baseten как раз решает эту проблему автоматическими бенчмарками и A/B-тестами.

💡

Совет: если вы выбираете провайдера inference, обращайте внимание не на количество поддерживаемых моделей, а на качество роутинга. Спросите, как они определяют, какую модель запустить для конкретного запроса. Если ответа нет — бегите.

Железо vs софт: кто выиграет?

Рынок inference разрывается между двумя лагерями. Первый — провайдеры, которые ставят на специализированное железо: Cerebras, Groq, Amazon с их Trainium против NVIDIA. Второй — софтовые платформы типа Baseten, которые абстрагируют железо и берут на себя логистику. Инвестиции в $1.5B говорят, что рынок верит во второй подход. Действительно, зачем покупать собственный дата-центр, если можно арендовать «умный» роутер запросов?

Кстати, о дата-центрах. Государство в России не хочет вкладывать 450 млрд рублей в AI-дата-центры, а частники типа Mistral строят свои под Парижем за $830 млн. Вопрос ownership железа остается открытым. Но Baseten показывает: можно не иметь своих чипов, а просто арендовать их у всех подряд и умно маршрутизировать.

Как не ошибиться с провайдером: три вопроса, которые надо задать

Как работает роутинг? Есть ли у них динамическое переключение между моделями в рантайме, или это просто «балансировщик»?
Какие open-source модели оптимизированы под их железо? Если они предлагают только проприетарные, ваша долговая нагрузка вырастет.
Предусмотрен ли split-priced round для клиентов? То есть, можете ли вы платить меньше за менее критичные запросы? Baseten ввел такую тарификацию после своего раунда.

И не забывайте про столетние кредиты Amazon и Google — они показывают, что даже гиганты не уверены в окупаемости своих data center. Может, аренда inference через Baseten действительно умнее?

А что же российский рынок?

Пока западные стартапы собирают миллиарды, у нас ставки скромнее, но тоже растут. Mistral AI привлекает $830M — и это ближайший аналог Baseten в Европе. В России же скрытые чемпионы вроде «Т-Платформы» и Yandex Cloud пытаются строить свои inference pipelines, но до split-priced раундов им далеко. Может, через год увидим первого российского единорога в этой нише?

В любом случае, золотая лихорадка в inference только начинается. $1.5B Baseten — это не пик, а сигнал. Nvidia отрицает $100 млрд инвестиции в OpenAI, но если inference станет главным драйвером спроса на чипы, то $1.5B покажутся мелочью. Главное — не прогадать с выбором провайдера. И роутинг тут решает всё.

Подписаться на канал

Inference-золотая лихорадка: как Baseten привлек $1.5B и почему это важно для выбора провайдера AI-инференса