Исправление кэша Claude Code: отключение x-anthropic-billing-header в 2026 | AiManual
AiManual Logo Ai / Manual.
14 Фев 2026 Инструмент

Claude Code глючит кэш? Отключаем x-anthropic-billing-header и возвращаем скорость

Пошаговое решение проблемы полной переобработки промпта в Claude Code. Отключаем заголовок x-anthropic-billing-header через переменные окружения и settings.json

Почему ваш Claude Code внезапно начал «думать» вечность

Вы отправляете промпт. Ждете. Claude Code на версии 2025.3 медленно переваривает запрос, хотя вчера все летало. В логах нет ошибок, но каждый новый диалог модель начинает с чистого листа. Знакомо? Виновник найден – это хедер x-anthropic-billing-header.

С февраля 2025 года в Claude Code по умолчанию активирован заголовок, который уникализирует каждый запрос для биллинга. Побочный эффект – KV-кэш (Key-Value cache) полностью игнорируется. Модель пересчитывает все контекстные эмбеддинги заново.

В теории кэширование промптов должно экономить до 70% времени на повторяющихся задачах. На практике хедер ломает эту логику. Особенно больно при работе с локальными версиями Claude Code через vLLM, где каждая миллисекунда на счету.

Что делает x-anthropic-billing-header и зачем его убивать

Заголовок добавляет в каждый API-запрос уникальный идентификатор сессии для тарификации. Полезно для облачных сервисов, но катастрофа для кэширования. Система видит каждый запрос как «новый» и не использует сохраненные вычисления.

💡
KV-кэш (кеш ключ-значение) хранит промежуточные вычисления модели для повторяющихся префиксов промптов. Без него Claude Code обрабатывает 1000 токенов там, где мог бы взять 300 из кэша.

Решение – отключить заголовок. Два рабочих способа: через переменную окружения или правку settings.json.

1 Через переменную окружения (быстро, но временно)

Экспортируйте переменную перед запуском Claude Code. Работает для текущей сессии терминала.

export ANTHROPIC_DISABLE_BILLING_HEADER=1
# Затем запускайте Claude Code как обычно
claude-code start

Проверьте, что заголовок исчез. В логах не должно быть строк с x-anthropic-billing-header.

2 В файле настроек (навсегда, для всех сессий)

Найдите конфигурационный файл Claude Code. Обычно он лежит в ~/.config/claude-code/settings.json или в папке установки.

Добавьте или измените параметр:

{
  "anthropic": {
    "disableBillingHeader": true
  },
  "other_settings": "..."
}

Перезапустите Claude Code. Если файла нет – создайте. Некоторые сборки (особенно локальные форки) хранят настройки в другом месте. Проверьте документацию вашей версии.

А что, есть другие способы ускорить кэширование?

Отключение хедера – самый эффективный хак для Claude Code. Но если хочется большего, посмотрите на специализированные системы.

Инструмент Как работает кэширование Когда выбирать вместо хака
Claude Code (наш хак) Восстанавливает штатное KV-кэширование, отключая биллинг-хедер Всегда, если используете Claude Code. Базовая оптимизация.
llama.cpp с Prompt Caching Кэширует эмбеддинги системного промпта на уровне рантайма Если работаете с локальными Llama-моделями и нужна максимальная скорость.
vLLM с PagedAttention Оптимизирует использование памяти GPU, ускоряя инференс При запуске больших моделей на своем железе с ограниченной VRAM.

Настройка Prompt Caching в llama.cpp сложнее, но дает прирост в 3-5 раз для повторяющихся задач. Claude Code после отключения хедера ускоряется в 1.5-2 раза – не рекорд, но заметно.

Кому точно нужно это исправить прямо сейчас

Не нужно это исправлять, если вы работаете исключительно через официальный облачный API Anthropic и платите за токены. Там биллинг-хедер – часть тарификации. Но для локальных инсталляций это просто технический долг.

Проверьте свою версию Claude Code. Начиная с релиза 2025.2, проблема массово проявилась. Если у вас старая сборка – возможно, хедера нет. Но обновляясь, вы рискуете получить замедление «в подарок».

А что дальше? Будут ли чинить официально

Anthropic знают о проблеме. В чатах разработчиков с начала 2026 года идут споры: оставить хедер для монетизации или дать пользователям выбор. Пока тишина. Вероятно, в будущих версиях добавят настройку allowPromptCaching в GUI. Но ждать – терять время сейчас.

Мой совет – поставьте патч через settings.json и забудьте. Потом, когда выйдет обновление с фиксом, просто удалите строку. 30 секунд на настройку экономят часы ожидания. Особенно если вы превращаете Claude Code в личного инженера для тяжелых задач.

И да, после отключения хедера не удивляйтесь, если Claude Code начнет отвечать быстрее. Это не магия. Это просто наконец-то работает как задумано.