Когда вы платите за инференс LLM, половина денег часто уходит на то, что модель уже видела — одинаковые системные промпты, повторяющиеся диалоги. И если провайдер не умеет толковать кэш префиксов, вы теряете деньги на ровном месте. OpenRouter недавно опубликовала статистику cache-hit rate по провайдерам — и цифры там, мягко говоря, разнятся.
Что такое cache-hit rate? Доля запросов, при которых сервер не пересчитывает префикс заново, а использует сохранённый результат. Чем выше процент, тем меньше вы платите за повторяющиеся токены.
В теории это работает красиво: провайдер кэширует начало промпта (системный промпт, историю, инструменты) и для каждого следующего запроса с таким же префиксом отдаёт ответ быстрее и дешевле. На практике (и я уже писал об этом в статье про 7 антипаттернов кэширования префиксов LLM) round-robin, динамические timestamps и тулзы постоянно убивают кэш. Но провайдеры — не только жертвы обстоятельств, они сами решают, какой движок ставить и как настраивать кэш.
Тир-1: монстры кэша (hit rate 75-85%)
Лидеры, по данным OpenRouter за май 2026, — провайдеры, которые используют связку vLLM + IndexCache (кстати, IndexCache для vLLM/SGLang ускоряет DeepSeek-V3.2 до 1.8x). Среди них:
- Together AI — стабильные 82% hit rate на моделях LLaMA-4 и Mistral Large 3. Их секрет: единый кластер с минимальным latency, где кэш живёт до 10 минут.
- Fireworks AI — 79%. Агрессивное кэширование даже при динамических промптах. По слухам, используют splitwise-архитектуру (см. разделение prefill и decode на разные GPU), что даёт кэшу больше времени жить.
- DeepSeek Official — 80% на собственной модели V3.2, но только при запросах с фиксированным системным промптом.
Тир-2: середняки (hit rate 50-65%)
Сюда попало большинство мелких провайдеров на OpenRouter и некоторые крупные, которые экономят на железе. Например:
- Groq — 58%. У них бешенная скорость (LPU-чипы), но кэш чистится раз в 30 секунд. Для burst-нагрузки норм, но для повторяющихся запросов — мимо.
- Anthropic API (Claude) — 62%. В статье «Счёт за память: как Prompt Caching в Claude разъедает ваш бюджет» я разбирал, почему их кэш буквально душит кошелёк: запись в кэш стоит отдельно, а hit rate низкий из-за жёсткого TTL.
- Lepton AI — 55%. Дешёвые цены, но кэш почти не работает.
Интересно, что провайдеры из тира-2 часто выигрывают в скорости, но проигрывают в цене при высоком reuse промптов. Это как раз тот случай, когда автоматический выбор модели ИИ может перекидывать тяжёлые запросы на тир-1, а лёгкие — на тир-2.
Тир-3: дырявое ведро (hit rate < 40%)
Самый интересный тир. Сюда попали провайдеры, которые либо не поддерживают prefix caching вообще, либо используют дешёвый AI-инференс за счёт квантования и обрезания контекста. Главный антигерой — DeepInfra: hit rate 28%. Они крутят кучу моделей на одном кластере, и кэш между запросами просто не успевает прогреваться. Ещё один аутсайдер — Novita AI с 32%. Формально кэш есть, но из-за балансировщика запросы уходят на разные ноды.
Важно: провайдеры из тира-3 могут показывать низкую цену за токен, но с учётом кэша effective cost (формулу смотрите в статье «Экономика AI: как считать реальную стоимость запроса к LLM с учётом кэша») часто оказывается выше, чем у Together. Это ловушка для новичков.
Как считать эффективную цену самому
Формула простая: effective cost = (1 - hit_rate) × price_per_token + hit_rate × discounted_price. Но discount от провайдера часто равен нулю (кэшированные токены бесплатны только у OpenRouter и Together). У Anthropic кэшированные токены стоят в 2-3 раза дешевле обычных, но сам hit_rate низок — и в итоге вы платите почти как за полный префикс.
Сравните: для Together с hit_rate 82% и ценой $2/M токенов effective cost = $0.36/M. Для DeepInfra с hit_rate 28% и ценой $0.5/M effective cost = $0.36/M — одинаково! Но при росте нагрузки Together выигрывает, у DeepInfra hit_rate не растёт.
Кстати, в статье «Exacto на OpenRouter: Кто не портит модели квантованием?» мы выяснили, что провайдеры с высоким hit rate чаще используют точные веса — совпадение? Нет, это системная оптимизация.
Стратегия выбора: когда какой тир брать
Вот короткий гайд без воды:
- Повторяющиеся системные промпты + большой context (RAG, чат-боты) — тир-1. Окупается даже при цене выше средней.
- Одиночные запросы с разными промптами (генерация текста, перевод) — тир-2 или тир-3, кэш не поможет.
- Mixed load — используйте роутинг: методика бенчмарка AI-поиска поможет профилировать запросы.
- Если вы Claude-зависимый — не надейтесь на кэш Anthropic, лучше переключите часть трафика на Together через OpenRouter.
«Самый дорогой провайдер — не тот, у кого цена за токен выше, а тот, кто не кэширует ваши префиксы.» — неизвестный инженер OpenRouter
Что дальше?
Рынок инференса быстро консолидируется. Крупные провайдеры (Together, Fireworks) уже построили «кэш-крепости», и их hit rate растёт. Мелкие либо подтянутся (купив IndexCache-хаки), либо уйдут в нишу сверхдешёвого инференса без кэша. Мой прогноз: к концу 2026 года разрыв между тир-1 и тир-3 по effective cost будет двукратным. Вывод: не ведитесь на красивые цифры price/token — считайте с учётом cache-hit. Иначе ваш бюджет будет напоминать дырявое ведро.