Проблема: ваши API-ключи живут своей жизнью, а счета приходят вам

Вы запускаете агента, который использует Claude 3.7 Sonnet для сложных рассуждений, Synthetic Minds для генерации данных и GLM-4.7 от Zhipu для китайского контекста. В теории - идеальный стек. На практике - три разных панели управления, три разных графика списаний и одна общая паника в конце месяца, когда приходит счет.

Особенно обидно, когда часть работы можно было отдать локальным моделям, как в этом кейсе про экономию на Llama 3. Но как понять, какие именно запросы съедают бюджет? Где тот переломный момент, когда покупка железа под локальные LLM окупается?

К февралю 2026 года у Anthropic, Synthetic Minds и Zhipu AI уже по 2-3 крупных обновления API и моделей. Отслеживать квоты вручную - все равно что пытаться считать капли из трех разных кранов одновременно.

onWatch: один бинарник, три провайдера, нулевая сложность

onWatch - это open-source инструмент на Go, который решает проблему радикально просто. Качаете бинарник под свою ОС, настраиваете API-ключи в YAML-файле, запускаете. Все.

Инструмент написан на Go, что означает: один исполняемый файл, никаких зависимостей, минимальное потребление RAM (около 15-20 МБ в фоне). Лицензия GPL-3.0 - можете форкать, модифицировать, встраивать в свои продукты (с оговорками).

💡

Актуальность на февраль 2026: onWatch поддерживает последние версии API всех трех провайдеров, включая новые эндпоинты Synthetic Minds для batch-обработки и обновленные методы получения квот у Zhipu AI для GLM-4.7.

Что он умеет (и чего не умеет)

Основная функция - периодический опрос API провайдеров и сохранение данных в локальную SQLite базу. Никаких облачных синхронизаций, никакой отправки ваших ключей третьим лицам.

Поддерживаемые провайдеры:

Провайдер	Что отслеживает	Особенности 2026
Anthropic	Остаток токенов, лимиты запросов, сроки обновления	Поддержка новых тарифных планов для Claude 3.7
Synthetic Minds	Использованные/доступные токены, активные задачи	Учет новых типов задач (batch, streaming)
Zhipu AI (Z.ai)	Баланс, дневные лимиты, история списаний	Адаптация под изменения в API GLM-4.7

Вот что бесит: onWatch не умеет автоматически переключать провайдеров при исчерпании квот. Нет интеграции с LiteLLM или другими роутерами. Это просто монитор, а не менеджер. Но иногда именно такая простота и нужна.

Альтернативы? Есть, но все со своими тараканами

Попробуем честно сравнить:

Langfuse - монстр в мире observability для LLM. Делает все: трассировку, мониторинг затрат, анализ производительности. Но это отдельный сервис, часто избыточный, если нужно просто следить за квотами. Отличный инструмент, но не для этой конкретной задачи.
Самописные скрипты - каждый разработчик хотя бы раз писал такой. Работает ровно до первого изменения API. К февралю 2026 Anthropic уже дважды меняла эндпоинты для проверки квот.
Панели управления провайдеров - нужно открывать три разных вкладки, помнить три разных пароля. Не вариант.

Главное преимущество onWatch перед универсальными AI Model Tracker'ами - специализация. Он делает одну вещь и делает ее хорошо.

Кому это впишется в рабочий процесс

Представьте три сценария:

1 Небольшая команда, которая экспериментирует с разными API

У вас есть бюджет в $500 в месяц на AI-сервисы. Вы тестируете, какой провайдер лучше справляется с вашими задачами. OnWatch покажет, куда уходят деньги: может, Synthetic Minds съедает 80% бюджета на генерацию тестовых данных, хотя эту работу могла бы делать локальная модель.

2 Разработчик, который строит гибридную систему

Вы используете Claude для сложной логики, но переводите часть запросов на локальные LLM. Нужно понимать, когда квоты Anthropic заканчиваются слишком быстро - значит, пора дообучать свою локальную модель.

3 Аналитик в крипто- или fintech-проекте

Вы используете рассуждающие LLM для анализа данных, и каждый токен на счету. Внезапное исчерпание квот в момент рыночного шума - это прямые убытки.

Важный нюанс 2026 года: многие провайдеры ввели динамическое ценообразование в зависимости от времени суток и нагрузки. OnWatch не отслеживает это. Только статические квоты.

Как это выглядит на практике

Установка занимает минуту. Качаете бинарник с GitHub, создаете config.yaml:

providers:
  anthropic:
    api_key: "sk-ant-..."
    check_interval: 300  # каждые 5 минут
    
  synthetic:
    api_key: "syn-..."
    check_interval: 600  # каждые 10 минут
    
  zai:
    api_key: "..."
    check_interval: 900  # каждые 15 минут

database:
  path: "./onwatch.db"

logging:
  level: "info"
  file: "./onwatch.log"

Запускаете: ./onWatch --config config.yaml

Инструмент работает в фоне, пишет данные в SQLite. Можете подключиться к базе и строить свои графики, или использовать простой веб-интерфейс (есть в планах на 2026 год, но пока только CLI).

Ограничения, которые стоит знать до установки

OnWatch - не панацея. Вот что он НЕ делает:

Не прогнозирует, когда закончатся квоты (хотя данные для такого прогноза собирает)
Не интегрируется с системами алертинга типа PagerDuty или Slack (только логи в файл)
Не различает квоты для разных моделей одного провайдера (например, отдельно для Claude 3.7 Sonnet и Haiku)
Не работает с OpenAI и другими провайдерами - только три заявленных

И главное: onWatch не поможет вам сделать AI-продукт почти бесплатно. Он только покажет, где вы тратите деньги.

Стоит ли ставить в 2026 году?

Если вы используете два или три из этих провайдеров одновременно - да, определенно стоит. Потратите 10 минут на настройку, сэкономите часы на ручном мониторинге и, возможно, сотни долларов на неожиданных списаниях.

Особенно актуально для тех, кто балансирует между облачными и локальными моделями. Данные из onWatch - это конкретные цифры, которые покажут, когда пора инвестировать в железо для локальных LLM.

Но если вы работаете только с одним провайдером - возможно, проще следить за его родной панелью. Хотя даже в этом случае автоматический сбор истории в SQLite может пригодиться для отчетности.

Инструмент развивается. На февраль 2026 в roadmap: веб-интерфейс, прогнозирование расхода, интеграция с Telegram-ботами для алертов. Загляните в репозиторий - может, нужные вам фичи уже реализованы.

А пока - просто запустите и забудьте. Пусть onWatch следит за квотами, пока вы занимаетесь реальной работой. Или спите. Сон тоже важен.

onWatch: Go-бинарник, который следит за квотами Anthropic, Synthetic и Z.ai, пока вы спите