Пять дней. Двести миллионов токенов. Один агент на базе Hermes, который тупо молотил код, документацию и логи. Если бы я тогда платил за каждый токен через API, то сейчас бы перевязывал вены красными флажками от финансовой боли. Но я запустил всё локально. И давайте честно: считать экономию — не для того, чтобы похвастаться, а чтобы вы понимали, когда своё железо реально выгоднее.
В этой статье разжуву, как самому посчитать выгоду от локального запуска LLM. Без маркетинговых уловок. Только цифры, только реальный опыт. И да, я покажу, почему железо всё ещё выгодно, даже после обвала цен на облачные API.
Зачем вообще считать? Ложка цифр в бочку истерики
200 млн токенов за 5 дней — это примерно 40 млн токенов в сутки. В пересчёте на среднюю длину запроса-ответа (скажем, 4K токенов на диалог) — это 10 000 разговоров в день. Теперь представьте, что вы гоните их через Claude Sonnet 4 (цена $3 за входной миллион, $15 за выходной). Даже если соотношение 50/50, средняя стоимость миллиона токенов — $9. 200 * 9 = $1 800 за пять дней. А в месяц (30 дней) — больше десяти тысяч долларов.
А теперь другая сторона: если вы купили станцию за $15 000 и тянете на ней Qwen 3.5 397B, то эти же 200 млн токенов обойдутся вам только в стоимость электричества — около $50–100 (зависит от тарифов и энергопотребления 2 кВт*ч). Плюс амортизация: если станция прослужит три года, то в день это ~$14. Итого $14+$20 = $34 в день против $360 через API. Выгода — в 10 раз.
Важно: расчёт грубый, без учёта кэша, количества выходных токенов и модели. Но порядок цифр очевиден.
Первое, что бесит: ты не знаешь, сколько жрёшь токенов
Проблема номер один — отсутствие мониторинга. Если ты не используешь Tokentap или встроенное логирование vLLM, ты слепой. Я тоже сначала думал: «А, ну крутится себе агент, токены там считаются». А потом поставил Tokentap и офигел: 200 млн всего за пять дней. Без него я бы никогда не увидел реальную картину.
Поэтому первый шаг к подсчёту экономии — это замерить потребление. Поставьте Tokentap или хотя бы считайте через API-логи провайдера. Если используете OpenRouter (ссылка партнёрская), там есть дашборд с токенами — дешевле, чем прозевать миллионы.
Формула effective cost: не дайте себя надуть
В 2025–2026 годах цены на API упали, но формула effective cost стала сложнее. Появились reasoning-режимы, которые жрут в 2–3 раза больше скрытых токенов. У Claude 4 есть extended thinking — и вы платите за «мысли» модели. У GPT-5 — аналогично. Если не учитывать эти скрытые токены, вы сильно занизите реальную стоимость API.
Вот как я считаю effective cost сам:
- Соберите логи Tokentap — там будет breakdown по входным и выходным токенам, а также по hidden (reasoning).
- Определите среднюю стоимость за миллион для вашей модели. Например, для Qwen 3.5 397B через OpenRouter цена $1.5/M input, $6/M output. С учётом 70/30 распределения = $2.85/M. Но если используете reasoning, добавьте ещё 50%.
- Учтите кэш — если вы кешируете частые запросы (prefix caching), эффективная цена может упасть на 10–30%. В локальной среде кэш бесплатный.
- Посчитайте итог: (total_output_tokens * output_price + total_input_tokens * input_price) / 1e6.
В моём кейсе 200M токенов без reasoning, 60% input, 40% output. По OpenRouter цена была бы (120M * $1.5 + 80M * $6) / 1e6 = ($180 + $480) = $660. За пять дней. А локально — только электричество плюс амортизация, около $170. Экономия — $490 за 5 дней. Если нагрузка постоянная, то за месяц — почти $3 000.
Чёртова дюжина скрытых расходов локального запуска
Ладно, API стоит дорого, но и локальный запуск — не халява. Многие забывают учесть:
- Время инженера — настройка vLLM, оптимизация, деплой. Я потратил два дня, чтобы выжать 1.1M токен/с на B200 (как в этой конфигурации vLLM). Если у вас 8×A100, то меньше, но всё равно неделя.
- Отказоустойчивость — API провайдеры дают SLA 99.9%, а ваша домашняя станция может упасть в самый неподходящий момент. Нужен мониторинг, резервирование.
- Обновление моделей — вышли Qwen 3.5 Turbo? Придётся перекачивать, пересобирать образ, тестировать.
- Электричество и охлаждение — 8 GPU по 350 Вт = 2.8 кВт. За 24 часа — 67 кВт*ч. По $0.12 = $8 в день. Мелочь, но если у вас дата-центр, то ещё и аренда стойки.
Тем не менее, при больших объёмах даже с учётом этих расходов локальный запуск окупается за 3–6 месяцев. Дальше — чистая экономия.
Пошаговый план: как посчитать экономию для вашего сценария
1 Соберите статистику потребления токенов
Используйте Tokentap или логи vLLM. Если у вас уже есть дашборд — отлично. Если нет — поставьте Tokentap за 10 минут (у меня гайд по установке). Экспортируйте данные за последние N дней.
2 Рассчитайте стоимость через API
Выберите провайдера, к которому вы могли бы обратиться (OpenRouter, Azure, Together). Запишите цены. Учтите reasoning-токены (см. статью про скрытые токены). Умножьте всё и получите baseline.
3 Оцените стоимость локального запуска
Включите CAPEX (стоимость железа, разделённую на срок службы) и OPEX (электричество, интернет, обслуживание). Для примера возьмём станцию за $15 000 (3 года = 1095 дней, ~$13.7/день) и электричество ~$8/день. Итого $22/день. Если вы арендуете GPU (RunPod, Vast.ai) — цену аренды за день.
4 Сравните и сделайте вывод
Если API в 5–10 раз дороже — локальный запуск однозначно выгоден при нагрузке > 10M токенов/день. Если объём меньше — считайте сами. Формула простая: экономия = (API cost per day - local cost per day) * days. Не забудьте вычесть затраты на время инженера на старте.
Возможные ошибки в расчётах
Ошибка №1. Считать только input токены. Реальная экономия — на output, потому что они в 5–10 раз дороже. В локальном запуске разницы нет.
Ошибка №2. Забыть про кэширование. Если у вас много повторяющихся запросов (prefix caching), API может быть дешевле — но локальный кэш всё равно бесплатный.
Ошибка №3. Не учитывать время на адаптацию модели под свои данные. Локально вы можете дообучать Qwen 3.5 397B LoRA — это дополнительные расходы на GPU, но в долгосрочной перспективе снижает количество токенов за счёт меньшего числа итераций.
А стоит ли овчинка выделки? Неочевидный совет
Да, локальный запуск выгоден при высоких объёмах. Но есть один фактор, о котором молчат все гайды: скорость изменений. Модели обновляются каждые пару месяцев — вы купили железо под Qwen 3.5, а через полгода выходит Qwen 4 с архитектурой MoE, которая требует других CUDA cores. Железо устаревает быстрее, чем окупается, если вы гонитесь за новинками.
Мой совет: берите проверенную конфигурацию (4×A100 80GB или B200) и держитесь её 2–3 года. Не меняйте модель каждый месяц. Иначе экономия локального запуска превратится в гонку вооружений.
А теперь самое интересное: я подсчитал, что мой проект с агентом Hermes на 200 млн токенов за пять дней сэкономил мне $490. Если бы я продолжил в том же темпе месяц, сэкономил бы $3 000. За год — $36 000. Станция за $15 000 окупилась бы за 5 месяцев. Дальше — чистая прибыль.
Но если ваш объём меньше 5 млн токенов в день — не парьтесь. Используйте API, купите подписку за $20 и спите спокойно. А если у вас гигантские пайплайны — берите железо. Я своё уже не отдам.