Проблема: ваши API-ключи живут своей жизнью, а счета приходят вам
Вы запускаете агента, который использует Claude 3.7 Sonnet для сложных рассуждений, Synthetic Minds для генерации данных и GLM-4.7 от Zhipu для китайского контекста. В теории - идеальный стек. На практике - три разных панели управления, три разных графика списаний и одна общая паника в конце месяца, когда приходит счет.
Особенно обидно, когда часть работы можно было отдать локальным моделям, как в этом кейсе про экономию на Llama 3. Но как понять, какие именно запросы съедают бюджет? Где тот переломный момент, когда покупка железа под локальные LLM окупается?
К февралю 2026 года у Anthropic, Synthetic Minds и Zhipu AI уже по 2-3 крупных обновления API и моделей. Отслеживать квоты вручную - все равно что пытаться считать капли из трех разных кранов одновременно.
onWatch: один бинарник, три провайдера, нулевая сложность
onWatch - это open-source инструмент на Go, который решает проблему радикально просто. Качаете бинарник под свою ОС, настраиваете API-ключи в YAML-файле, запускаете. Все.
Инструмент написан на Go, что означает: один исполняемый файл, никаких зависимостей, минимальное потребление RAM (около 15-20 МБ в фоне). Лицензия GPL-3.0 - можете форкать, модифицировать, встраивать в свои продукты (с оговорками).
Что он умеет (и чего не умеет)
Основная функция - периодический опрос API провайдеров и сохранение данных в локальную SQLite базу. Никаких облачных синхронизаций, никакой отправки ваших ключей третьим лицам.
Поддерживаемые провайдеры:
| Провайдер | Что отслеживает | Особенности 2026 |
|---|---|---|
| Anthropic | Остаток токенов, лимиты запросов, сроки обновления | Поддержка новых тарифных планов для Claude 3.7 |
| Synthetic Minds | Использованные/доступные токены, активные задачи | Учет новых типов задач (batch, streaming) |
| Zhipu AI (Z.ai) | Баланс, дневные лимиты, история списаний | Адаптация под изменения в API GLM-4.7 |
Вот что бесит: onWatch не умеет автоматически переключать провайдеров при исчерпании квот. Нет интеграции с LiteLLM или другими роутерами. Это просто монитор, а не менеджер. Но иногда именно такая простота и нужна.
Альтернативы? Есть, но все со своими тараканами
Попробуем честно сравнить:
- Langfuse - монстр в мире observability для LLM. Делает все: трассировку, мониторинг затрат, анализ производительности. Но это отдельный сервис, часто избыточный, если нужно просто следить за квотами. Отличный инструмент, но не для этой конкретной задачи.
- Самописные скрипты - каждый разработчик хотя бы раз писал такой. Работает ровно до первого изменения API. К февралю 2026 Anthropic уже дважды меняла эндпоинты для проверки квот.
- Панели управления провайдеров - нужно открывать три разных вкладки, помнить три разных пароля. Не вариант.
Главное преимущество onWatch перед универсальными AI Model Tracker'ами - специализация. Он делает одну вещь и делает ее хорошо.
Кому это впишется в рабочий процесс
Представьте три сценария:
1 Небольшая команда, которая экспериментирует с разными API
У вас есть бюджет в $500 в месяц на AI-сервисы. Вы тестируете, какой провайдер лучше справляется с вашими задачами. OnWatch покажет, куда уходят деньги: может, Synthetic Minds съедает 80% бюджета на генерацию тестовых данных, хотя эту работу могла бы делать локальная модель.
2 Разработчик, который строит гибридную систему
Вы используете Claude для сложной логики, но переводите часть запросов на локальные LLM. Нужно понимать, когда квоты Anthropic заканчиваются слишком быстро - значит, пора дообучать свою локальную модель.
3 Аналитик в крипто- или fintech-проекте
Вы используете рассуждающие LLM для анализа данных, и каждый токен на счету. Внезапное исчерпание квот в момент рыночного шума - это прямые убытки.
Важный нюанс 2026 года: многие провайдеры ввели динамическое ценообразование в зависимости от времени суток и нагрузки. OnWatch не отслеживает это. Только статические квоты.
Как это выглядит на практике
Установка занимает минуту. Качаете бинарник с GitHub, создаете config.yaml:
providers:
anthropic:
api_key: "sk-ant-..."
check_interval: 300 # каждые 5 минут
synthetic:
api_key: "syn-..."
check_interval: 600 # каждые 10 минут
zai:
api_key: "..."
check_interval: 900 # каждые 15 минут
database:
path: "./onwatch.db"
logging:
level: "info"
file: "./onwatch.log"
Запускаете: ./onWatch --config config.yaml
Инструмент работает в фоне, пишет данные в SQLite. Можете подключиться к базе и строить свои графики, или использовать простой веб-интерфейс (есть в планах на 2026 год, но пока только CLI).
Ограничения, которые стоит знать до установки
OnWatch - не панацея. Вот что он НЕ делает:
- Не прогнозирует, когда закончатся квоты (хотя данные для такого прогноза собирает)
- Не интегрируется с системами алертинга типа PagerDuty или Slack (только логи в файл)
- Не различает квоты для разных моделей одного провайдера (например, отдельно для Claude 3.7 Sonnet и Haiku)
- Не работает с OpenAI и другими провайдерами - только три заявленных
И главное: onWatch не поможет вам сделать AI-продукт почти бесплатно. Он только покажет, где вы тратите деньги.
Стоит ли ставить в 2026 году?
Если вы используете два или три из этих провайдеров одновременно - да, определенно стоит. Потратите 10 минут на настройку, сэкономите часы на ручном мониторинге и, возможно, сотни долларов на неожиданных списаниях.
Особенно актуально для тех, кто балансирует между облачными и локальными моделями. Данные из onWatch - это конкретные цифры, которые покажут, когда пора инвестировать в железо для локальных LLM.
Но если вы работаете только с одним провайдером - возможно, проще следить за его родной панелью. Хотя даже в этом случае автоматический сбор истории в SQLite может пригодиться для отчетности.
Инструмент развивается. На февраль 2026 в roadmap: веб-интерфейс, прогнозирование расхода, интеграция с Telegram-ботами для алертов. Загляните в репозиторий - может, нужные вам фичи уже реализованы.
А пока - просто запустите и забудьте. Пусть onWatch следит за квотами, пока вы занимаетесь реальной работой. Или спите. Сон тоже важен.