Экономика инференса LLM: стоимость, KV-cache, MoE и лимиты API

Почему вы платите за каждый токен: анатомия дороговизны LLM

Вы когда-нибудь задумывались, почему запрос к GPT-4o стоит в 10 раз дороже, чем к DeepSeek-R2? И почему провайдеры режут контекст с 128K до 8K без предупреждения? Ответ — не в жадности корпораций, а в железе. Каждый сгенерированный токен — это микроскопический взрыв на GPU: миллиарды операций, терабайты пересылаемой памяти. Инференс LLM — не магия, а чистая физика и экономика.

Давайте вскроем чек. Разберём, из чего складывается цена токена, почему Claude 4 Opus стоит как подписка на Netflix за один разговор, и как эти цифры превращаются в лимиты, которые бесят каждого разработчика. Спойлер: если вы думаете, что дорогая модель гарантирует качество — вы просто не видели её счёт за GPU.

1. Главный пожиратель денег — не GPU, а память

Самый контр-интуитивный факт: стоимость инференса растет не от количества параметров модели (хотя это тоже важно), а от длины контекста. Причина — KV-cache (Key-Value cache). Без него модель при генерации каждого нового токена пересчитывала бы внимания для всей истории — это O(n²) по времени, что нереально. Поэтому transformer хранит вычисленные ключи и значения для каждого предыдущего токена.

Размер KV-cache прямо зависит от длины последовательности, количества голов внимания и глубины слоёв. Для модели с 70B параметров (например, Llama 3.1 70B) и контекстом в 128K токенов, KV-cache занимает около 40-60 ГБ на один запрос. Это больше, чем весят сами веса модели! Теперь представьте, что у вас параллельно работают 100 пользователей. GPU с 80 ГБ VRAM может обработать от силы 1-2 запроса с полным контекстом. Остальное — переключение и падение скорости.

Вот почему лимиты контекста — не прихоть. Провайдеры не могут держать для каждого запроса выделенный KV-cache размером с полногигабайта. Они балансируют: либо режут макс-контекст, либо вводят price tiers (за 32K — цена в 2-3 раза выше, чем за 8K). Чем длиннее разговор, тем дороже каждый следующий токен — провайдеры уже считают это в dynamic pricing.

На практике это выглядит так: если вы пишете систему, которая обрабатывает историю чата на 50 000 токенов, каждая генерация стоит на порядок больше, чем первый запрос. Неудивительно, что провайдеры вводят context window как предмет роскоши. Модели с 1M контекста (как Gemini 2.5 Pro) — технический подвиг, но его экономика пока убивает бюджет энтузиастов.

2. Dense vs MoE: архитектурный бой за кошелёк

В плотных (Dense) моделях каждый слой активирует все параметры для каждого токена. GPT-4 (предположительно) имеет 1.7 триллиона параметров, но архитектура MoE (Mixture of Experts) позволяет активировать только часть — выборку из 8 экспертов из 16. Это радикально снижает вычислительную нагрузку на шаг инференса.

Звучит логично, но есть нюанс: память для MoE всё равно нужна полная. Для загрузки всех экспертов (weight matrix) требуется столько же VRAM, как для dense-модели аналогичного суммарного размера. Mixtral 8x7B активирует 12.9B параметров, но в памяти держит все 56B. Просто GPU работает эффективнее, потому что на один запрос тратит меньше операций. Экономия на FLOPS, но не на памяти.

Для провайдера это означает, что можно упаковать больше пользователей на один GPU, если запросы короткие. Но как только контекст растёт — KV-cache перевешивает. Именно поэтому Grok 3 (MoE, 314B) стоит дешевле за токен, чем Claude 4 Opus (Dense, ~2T?). Компания xAI жертвует ёмкостью модели ради цены за токен. А Anthropic — наоборот.

💡

Это ключевой trade-off: MoE позволяет дешевле генерировать простые ответы, но как только задача требует длинного контекста или сложного reasoning, dense-модели могут оказаться эффективнее по качеству на токен. Выбор стоит делать не по прайсу, а по профилю нагрузки.

3. Цена мышления: как reasoning-токены сжигают бюджет

Модели семейства OpenAI o1, o3, Claude 4 используют так называемые цепочки рассуждений (chain-of-thought) не только в ответе, но и во внутреннем процессе. Они генерируют десятки и сотни дополнительных токенов, которые затем могут быть отфильтрованы перед финальным выводом. Для пользователя это выглядит как задержка в 30 секунд, а для API — как 10-кратное увеличение генерируемого текста.

По данным на июль 2026, стоимость output токенов для reasoning-моделей примерно в 4-6 раз выше, чем для обычных моделей того же провайдера. Например, o3 за 1M output токенов — около $75, в то время как GPT-4o — $15. Провайдеры явно обозначают это в pricing tiers, но мало кто осознаёт: если ваш запрос заставляет модель «думать» 2 минуты, счёт может составить до $10 за один диалог.

И это ещё не всё. Reasoning-токены тоже занимают место в KV-cache. Они не отбрасываются полностью — модель хранит всю цепочку для дальнейшей самокоррекции. Это удваивает потребление памяти. Лимиты на такие модели срезаются в разы: вы не увидите rate limit 500 RPM, максимум 20-30. Потому что один запрос с reasoning «съедает» столько же ресурсов, сколько 10 обычных.

4. Лимиты API — это не забота о вас. Это математика рентабельности

Когда разработчик видит ошибку 429 Too Many Requests, он думает: «Ну жадные корпорации». На самом деле за этим стоит простое уравнение: Cost per user < Revenue per user. Провайдер знает среднюю длину контекста и количество параллельных запросов на своём парке GPU. Если позволить всем пользователям крутить безлимитные 128K контекстов с reasoning, убытки составят миллионы долларов в день.

Лимиты делятся на три уровня:

Rate limits (RPM/TPM) — ограничение количества запросов и токенов в минуту. Защищает от внезапных всплесков, которые могут триггерить OOM на GPU.
Context limits — максимальная длина входного контекста. Чем длиннее, тем дороже каждый запрос, поэтому провайдеры предлагают разные tiers: Base (8K), Pro (32K), Enterprise (128K+).
Cost limits — бюджетные ограничения на аккаунт, часто скрытые. Если вы вдруг генерируете миллион токенов в день в free tier, вас просто отключат.

Кроме того, существует понятие capacity planning. Парк GPU не резиновый. Когда вы покупаете subscription, вы не получаете гарантированное выделенное железо — вы покупаете право использовать часть общего пула. Лимиты — это честное распределение дефицита. Если вы хотите снять все ограничения — готовьте корпоративный контракт с $100 000 monthly commit.

Лучше всего лимиты видны на Парето-фронте LLM 2026 — карте, где цена за токен пересекается с качеством (читайте разбор здесь). Там наглядно: за каждый пункт улучшения бенчмарка приходится платить в геометрической прогрессии. Провайдеры сдвигают кривую, упираясь в потолок экономики.

5. Хак: как не разориться на инференсе больших моделей

Хорошая новость: вы можете ничего не знать о внутренностях GPU и всё равно экономить. Плохая: большинство разработчиков используют LLM как чёрный ящик и платят в 5-10 раз больше, чем могли бы.

1 Используйте дешёвые модели для 80% задач

Не каждая задача требует GPT-4o или Claude 4 Opus. Базовая классификация, извлечение сущностей, ответы на простые вопросы — всё это отлично делает DeepSeek-R2 (цена $0.5/$2 за 1M токенов) или Mistral Large 2 ($2/$6). Сложные reasoning-задачи — да, там нужен premium. Но разграничьте трафик. Создайте роутер: простые промпты уходят на маленькую модель, сложные — на премиум. Это сократит счёт на 70%.

2 Управляйте контекстом: токены — деньги

Каждый лишний токен в истории разговора — это затраты на хранение KV-cache и генерацию. Периодически обрезайте историю: удаляйте старые сообщения, суммируйте их, используйте windowing. Если вы держите весь диалог от начала — вы платите за то, что уже не влияет на ответ. Многие провайдеры поддерживают динамический context truncation — включите его.

3 Батчинг и кэширование

Если у вас много однотипных запросов (например, проверка грамматики), не отправляйте каждый по отдельности. Используйте batch API — провайдеры дают скидку 50% за батч-обработку. Кроме того, кэшируйте частые ответы: для некоторых промптов результат не меняется. Не заставляйте модель пересчитывать «Hello, world!» каждый раз.

4 Следите за затратами проактивно

Не ждите удивления от месячного счёта. Используйте инструменты мониторинга, оповещения, трейсинг. Подробно о том, как организовать observability для LLM API, я писал в гайде «Как отслеживать и оптимизировать затраты на LLM API». Там же — сравнение провайдеров и их pricing на июль 2026.

И последнее: не будьте наивными. Помните, что LLM — это не серебряная пуля (почему так, читайте в этой статье). Иногда правильнее не дообучать модель на гигабайтах логов, а написать 20 строк SQL. Экономика инференса — это часть общей экономики проекта.

Самый дешевый токен — тот, который вы не сгенерировали. Иногда лучше запросить короткий ответ через системный промпт «будь краток», чем платить за развернутое рассуждение. И не забывайте: высокая цена не гарантирует качество — на Парето-фронте 2026 есть модели, которые за копейки выдают результат не хуже премиумных. Считайте не только токены, но и ценность ответа.

Подписаться на канал

Экономика инференса LLM: почему дорогие модели стоят дорого и как это влияет на лимиты