DeepInfra на Hugging Face: серверный инференс для 100+ моделей

Ещё один провайдер на сцене — и почему это событие

3 мая 2026 года компания DeepInfra официально появилась в списке провайдеров инференса на Hugging Face. Если вы следили за нашими публикациями (переход с OpenClaw на открытые модели или слияние llama.cpp с HF), то знаете: выбор провайдера инференса — это всегда компромисс между скоростью, ценой и удобством. DeepInfra обещает закрыть все три потребности сразу. Но давайте без хайпа — разберёмся, что изменилось на самом деле.

Что за зверь DeepInfra и почему о нём говорят

DeepInfra — это безсерверный сервис для запуска моделей машинного обучения. Без «серверного» в смысле Serverless: вы не арендуете виртуалки, не настраиваете окружение. Просто шлёте запросы и платите за каждый токен. В чём соль? До сих пор у DeepInfra был собственный API с десятками моделей, но интеграция с Hugging Face превращает его в часть огромной экосистемы. Теперь на странице любой модели (например, meta-llama/Llama-4-70B-Instruct или deepseek-ai/DeepSeek-V3) появляется кнопка «Inference» с опцией DeepInfra. Это значит, что даже новичок может запустить топовую LLM без регистрации в куче сервисов.

Сейчас DeepInfra поддерживает более 100 моделей — от гигантских Llama 4 и Qwen2.5 до специализированных вроде DeepSeek-Coder и Stable Diffusion 3.5. И список пополняется еженедельно.

Как это работает (и как не облажаться)

Зайдите на любой репозиторий модели на Hugging Face. Под заголовком «Deploy» выберите «Inference Providers» — откроется список доступных провайдеров. DeepInfra стоит прямо рядом с Together AI, Fireworks, Replicate и дефолтным HF Inference Endpoints. Нажали — появится поле для API-ключа (если у вас его нет, DeepInfra даёт пробные $5 после регистрации на их сайте). Выбрали модель — получили URL эндпоинта, готового принимать запросы.

Звучит логично, но есть нюанс. Первый запрос к модели может идти долго — холодный старт. DeepInfra кэширует веса на своих GPU, но не держит все модели активными сразу. Если модель не использовалась несколько часов, первый вызов задержится на 10–30 секунд. Зато потом скорость радует — до 80–100 токенов/с на Llama 4 70B (я проверил на своём проекте).

Цены: где экономия, а где ловушка

Главное преимущество DeepInfra — стоимость. В среднем она в полтора-два раза дешевле официального HF Inference Endpoints и почти всегда ниже, чем у Replicate. Например, Llama 4 70B стоит $0.9 за миллион входных токенов против $1.2 у HF. Для серийных запросов разница ощутима. Но есть подвох: DeepInfra берёт плату и за выходные токены, и за время простоя (если вы создали выделенный эндпоинт, а не используете шардированный). Обычный разработчик может не обратить на это внимание, а потом удивиться счёту.

Не советую так делать, если не хотите получить счёт в $500: для продакшена лучше зарезервировать GPU-инстанс (DeepInfra это тоже позволяет), а для прототипа — просто использовать бесплатный лимит, который они начисляют при регистрации.

Кому это реально нужно

Если вы пилите стартап на коленке или экспериментируете с идеями, DeepInfra + Hugging Face — идеальное комбо. Не надо разбираться в лаунчерах вроде Arandu или настраивать собственный сервер для ComfyUI (было дело в нашем прошлом материале). Просто выбрали модель, получили ключ и поехали.

Для взрослых проектов, где критичны latency и compliance, — сто раз подумайте. DeepInfra не предлагает кастомных контрактов с размещением в регионе клиента, и их GPU не изолированы до уровня VPC. Если нужно железное соглашение о конфиденциальности данных — смотрите в сторону актуальных локальных решений, вроде связки llama.cpp с собственными серверами (о чём мы писали в обзоре слияния).

А что дальше?

Мне кажется, интеграция DeepInfra — это сигнал. Hugging Face планомерно превращается в маркетплейс не только моделей, но и вычислительной мощности. К середине 2026 года вы сможете не просто скачать веса, а сразу запустить их одним кликом, выбрав провайдера под бюджет. DeepInfra здесь — тёмная лошадка: не такой раскрученный, как Together AI, но с агрессивными ценами. Советую попробовать на маленьких проектах. Если не понравится — всегда есть миграция обратно на свои мощности (спойлер: снова вкалывать с Docker).

Подписаться на канал

DeepInfra теперь на Hugging Face: как использовать серверный инференс для 100+ моделей