Почему ваш Claude Code внезапно начал «думать» вечность
Вы отправляете промпт. Ждете. Claude Code на версии 2025.3 медленно переваривает запрос, хотя вчера все летало. В логах нет ошибок, но каждый новый диалог модель начинает с чистого листа. Знакомо? Виновник найден – это хедер x-anthropic-billing-header.
С февраля 2025 года в Claude Code по умолчанию активирован заголовок, который уникализирует каждый запрос для биллинга. Побочный эффект – KV-кэш (Key-Value cache) полностью игнорируется. Модель пересчитывает все контекстные эмбеддинги заново.
В теории кэширование промптов должно экономить до 70% времени на повторяющихся задачах. На практике хедер ломает эту логику. Особенно больно при работе с локальными версиями Claude Code через vLLM, где каждая миллисекунда на счету.
Что делает x-anthropic-billing-header и зачем его убивать
Заголовок добавляет в каждый API-запрос уникальный идентификатор сессии для тарификации. Полезно для облачных сервисов, но катастрофа для кэширования. Система видит каждый запрос как «новый» и не использует сохраненные вычисления.
Решение – отключить заголовок. Два рабочих способа: через переменную окружения или правку settings.json.
1 Через переменную окружения (быстро, но временно)
Экспортируйте переменную перед запуском Claude Code. Работает для текущей сессии терминала.
export ANTHROPIC_DISABLE_BILLING_HEADER=1
# Затем запускайте Claude Code как обычно
claude-code start
Проверьте, что заголовок исчез. В логах не должно быть строк с x-anthropic-billing-header.
2 В файле настроек (навсегда, для всех сессий)
Найдите конфигурационный файл Claude Code. Обычно он лежит в ~/.config/claude-code/settings.json или в папке установки.
Добавьте или измените параметр:
{
"anthropic": {
"disableBillingHeader": true
},
"other_settings": "..."
}
Перезапустите Claude Code. Если файла нет – создайте. Некоторые сборки (особенно локальные форки) хранят настройки в другом месте. Проверьте документацию вашей версии.
А что, есть другие способы ускорить кэширование?
Отключение хедера – самый эффективный хак для Claude Code. Но если хочется большего, посмотрите на специализированные системы.
| Инструмент | Как работает кэширование | Когда выбирать вместо хака |
|---|---|---|
| Claude Code (наш хак) | Восстанавливает штатное KV-кэширование, отключая биллинг-хедер | Всегда, если используете Claude Code. Базовая оптимизация. |
| llama.cpp с Prompt Caching | Кэширует эмбеддинги системного промпта на уровне рантайма | Если работаете с локальными Llama-моделями и нужна максимальная скорость. |
| vLLM с PagedAttention | Оптимизирует использование памяти GPU, ускоряя инференс | При запуске больших моделей на своем железе с ограниченной VRAM. |
Настройка Prompt Caching в llama.cpp сложнее, но дает прирост в 3-5 раз для повторяющихся задач. Claude Code после отключения хедера ускоряется в 1.5-2 раза – не рекорд, но заметно.
Кому точно нужно это исправить прямо сейчас
- Разработчики, запускающие Claude Code локально. Каждая пересобранка токенов съедает ресурсы CPU/GPU. Особенно если вы оставляете ИИ на долгие сессии автономной работы.
- Те, кто использует Claude Code для обработки больших объемов однотипного кода. Рефакторинг, декомпиляция, генерация тестов – везде, где промпты повторяются.
- Энтузиасты, которые кастомизировали Claude Code под свои нужды. Если вы уже внедрили продвинутые промпты и рабочие процессы, отсутствие кэша сводит на нет всю оптимизацию.
Не нужно это исправлять, если вы работаете исключительно через официальный облачный API Anthropic и платите за токены. Там биллинг-хедер – часть тарификации. Но для локальных инсталляций это просто технический долг.
Проверьте свою версию Claude Code. Начиная с релиза 2025.2, проблема массово проявилась. Если у вас старая сборка – возможно, хедера нет. Но обновляясь, вы рискуете получить замедление «в подарок».
А что дальше? Будут ли чинить официально
Anthropic знают о проблеме. В чатах разработчиков с начала 2026 года идут споры: оставить хедер для монетизации или дать пользователям выбор. Пока тишина. Вероятно, в будущих версиях добавят настройку allowPromptCaching в GUI. Но ждать – терять время сейчас.
Мой совет – поставьте патч через settings.json и забудьте. Потом, когда выйдет обновление с фиксом, просто удалите строку. 30 секунд на настройку экономят часы ожидания. Особенно если вы превращаете Claude Code в личного инженера для тяжелых задач.
И да, после отключения хедера не удивляйтесь, если Claude Code начнет отвечать быстрее. Это не магия. Это просто наконец-то работает как задумано.