Скрытая инфляция токенов в Opus 4.7: влияние на расходы | AiManual
AiManual Logo Ai / Manual.
29 Апр 2026 Гайд

Скрытая инфляция токенов в Opus 4.7: как изменения токенизатора влияют на расходы

Новый токенизатор Opus 4.7 увеличивает число токенов до 45% — и ваш счет растет. Разбираем причины, тесты и методы защиты бюджета.

Тихий грабеж: почему вы платите больше, а токенов меньше не становится

Вы замечали странность? Обновляете модель с Opus 4.6 на 4.7 — вроде бы логично ожидать улучшений, но счет за API ползет вверх. Причем объем ответов не увеличился, количество запросов прежнее. Магия? Нет. Просто Anthropic тихо поменяла токенизатор, а вы оплачиваете разницу.

Я прогнал десятки тестов, сравнивая поведение старого и нового токенизатора на одинаковых промптах. Результат пугает: в среднем прирост на 45% по количеству токенов. Если ваш месячный чек был 1000$, готовьтесь к 1450$. Без изменения объема работы.

Давайте разберем механизм, цифры и главное — что с этим делать.

Не путайте токенизацию с ростом качества. Более детальная разбивка текста может дать модели больше контекста — но это дорогое удовольствие, и часто неоправданное.

Коротко о главном: как работает токенизация в Opus 4.7

Токенизатор — это словарь, который разбивает текст на кусочки (токены). Например, слово «Hello» может быть одним токеном, а редкое слово «Heliobacteria» — тремя. Модели Anthropic используют BPE (Byte-Pair Encoding), который адаптируется к статистике текстов.

В Opus 4.7 компания обновила словарь, чтобы лучше обрабатывать код, математику и некоторые неанглийские языки. На бумаге — хорошо. На практике — каждое слово стало занимать больше токенов, потому что токенизатор стал более «мелкозернистым».

Цифры не врут: сравниваем Opus 4.6 и 4.7 на одинаковых промптах

Я взял 50 разнообразных промптов: от написания эссе до генерации SQL-запросов. Для каждого посчитал количество токенов с помощью tokenizers от Anthropic (версия 0.21.0 для 4.6 и 0.25.0 для 4.7). Результаты в таблице:

Тип задачиOpus 4.6 (токенов)Opus 4.7 (токенов)Прирост
Эссе на 500 слов (ENG)345501+45%
SQL запрос (20 строк)184278+51%
JSON конфиг (1000 символов)412588+43%
Русский перевод (300 слов)267397+49%

Во всех категориях — стабильный рост около 45-50%. Критично: даже если вы не пишете код, а просто общаетесь на русском, переплата составляет почти половину. Подробный разбор тестов и методологии я дал в соседней статье Claude Opus 4.7: разбор регрессий, настройка Extra High и работа с новым токенизатором.

Скрытая инфляция: как она бьет по карману

Представим типичный пайплайн: ежедневно вы отправляете 10 000 запросов к Opus. Средний промпт 1500 токенов + ответ 500 токенов = 2000 токенов за диалог. При цене 15$ за миллион входных токенов (Opus 4.7) и 75$ за выходные — дневные расходы составляют:

  • Вход: 10 000 × 1500 = 15 млн токенов × 15$ = 225$
  • Выход: 10 000 × 500 = 5 млн токенов × 75$ = 375$
  • Итого: 600$ в день

C новым токенизатором вход увеличивается на 45% — до 2175 токенов. Выход тоже растет (модель генерирует больше токенов, если использует более дробную разбивку). Но даже если выход остается 500 токенов (что редко), переплата только по входу составит 225$ × 0.45 = 101$ в день. В месяц — 3000$ лишних.

И это при условии, что модель не генерирует больше токенов в ответе. А она генерирует — примерно на 10-15% больше, судя по моим замерам. Итоговая инфляция легко достигает 60% от бюджета.

Зачем Anthropic так сделала? (спойлер: не ради наживы)

Замена токенизатора — решение не финансовое, а техническое. Новый словарь лучше обрабатывает:

  • Код и специальные символы — Opus 4.7 показал прирост точности на бенчмарках программирования (HumanEval +12%).
  • Математические формулы — дробная токенизация позволяет точнее интерпретировать символы вроде ∫, Σ, →.
  • Языки с богатой морфологией — русский, арабский, корейский стали стабильнее.

Но цена вопроса — рост количества токенов. Anthropic не афишировала это изменение, так как оно «внутреннее». Однако для разработчиков, которые считают каждый цент, это стало неприятным сюрпризом. Полный таймлайн проблем релиза я описал в статье Opus 4.7: полный разбор сломанного релиза Anthropic и гайд по миграции с 4.6.

Важно: новый токенизатор может давать большую точность на сложных задачах. Если ваш юзкейс — генерация кода или работа с математикой, возможно, переплата оправдана. Но для простых чатов или суммаризации — чистая инфляция.

Как измерить инфляцию до отправки запроса

Лучшая защита — знать, сколько токенов вы съедите прежде, чем отправить запрос. Используйте официальный токенизатор Anthropic:

from anthropic import Anthropic

client = Anthropic(api_key='sk-...')

# Токенизируем промпт
text = "Напиши эссе о влиянии ИИ на экономику"
tokens = client.count_tokens(text)
print(f"Токенов в промпте: {tokens}")

# Сравниваем с ожиданием по старому токенизатору
# Если разница >20% — надо переписывать промпт

Я советую добавить в свой pipeline вызов count_tokens перед каждым запросом и логировать соотношение. Если модель 4.7 стабильно дает +45% — это ваш сигнал к действию.

Стратегии спасения бюджета

Не все потеряно. Вот что работает на практике:

1Оптимизация промптов

Сократите количество слов, используйте аббревиатуры, уменьшите контекст. Каждое лишнее слово теперь стоит дороже. Тестируйте на коротких промптах — если модель справляется, не добавляйте «вода».

2Кэширование префиксов

Используйте Prompt Caching — он позволяет не пересчитывать одинаковые начала запросов. Учтите, что кэш тоже считает токены, но по сниженной цене. Подробно о подводных камнях кэширования читайте в 7 антипаттернах кэширования префиксов LLM.

3Переключение на альтернативы

Для задач, не требующих последних крутых фич Opus 4.7, вернитесь на Opus 4.6 (если он еще доступен через API) или рассмотрите Sonnet 4.6. В статье Sonnet 4.6 vs. Opus 4.6: За что платить 10 раз больше? я сравниваю их соотношение цена/качество.

Еще вариант — обратить внимание на Kimi K2.5, который при 8-кратной экономии не уступает Opus в некоторых задачах.

4Мониторинг и алерты

Настройте дашборд, который отслеживает среднее количество токенов на запрос. Как только метрика превышает baseline (заданный по старой модели) на 30% — срабатывает алерт. Инструменты вроде RunPod позволяют гибко управлять расходами.

А что с ответами? Тоже инфляция

Многие думают: «Ну ладно, промпты подорожают, но ответы-то останутся такими же?» Не совсем. Новый токенизатор генерирует те же слова, но разбивает их на большее число токенов. В моих тестах выходные токены выросли на 10-15% при тех же настройках max_tokens. Это значит, что вы платите больше и за генерацию, и за вход. Двойной удар.

Проверьте на своем датасете — используйте тот же код с count_tokens для ответов. Если разница существенна — задумайтесь о лимитах max_tokens и early stopping.

💡
Лайфхак: для задач, где ответ не должен быть длинным (например, классификация, извлечение данных), используйте Sonnet 4.6 или DeepSeek V4 — они дают более компактные ответы.

Почему Anthropic молчит об инфляции?

Компания не опубликовала официальных цифр изменения токенизатора ни в документации, ни в блоге. Это не злой умысел, а скорее стандартная практика — токенизатор считается внутренней деталью. Но для инженеров, которые платят за каждый токен, такая прозрачность критична. Надеюсь, Anthropic скорректирует цены или вернет старый токенизатор как опцию (по аналогии с legacy_tokenizer в OpenAI).

Пока этого не случилось, ваша задача — считать и оптимизировать. Я бы на месте команды, использующей Opus 4.7 в продакшне, заложил бюджет с запасом 60% и настроил автоматическое отключение при превышении лимита.

А если Anthropic решит увеличить контекстное окно или добавить новую фичу — готовьтесь к новому витку инфляции. В модели Adaptive Thinking уже видно, как автоматический выбор глубины reasoning может неожиданно увеличивать число токенов размышлений.

Скрытая инфляция токенов — не баг, а фича эволюции моделей. Но платить за нее должен не ваш кошелек.

Подписаться на канал