Платите за Opus как за золото? Пора менять подход
Вы платите $75 за каждый миллион токенов Claude Opus? Серьезно? В 2026 году, когда китайские модели догнали и перегнали западные по качеству кода, это выглядит как расточительство. Я заменил Opus на Kimi K2.6 и не заметил разницы — кроме суммы в счете. Она уменьшилась в 8 раз.
Claude Code — отличный инструмент. Но его цена кусается, особенно для длительных сессий автономной работы, как в случае с декомпиляцией игр. Зачем переплачивать, если есть альтернативы, которые не уступают в задачах генерации кода, отладки и рефакторинга?
Внимание: цены и версии моделей актуальны на 22 апреля 2026 года. Если вы читаете это позже, проверьте обновления — китайские команды выпускают апдейты каждые 3-4 месяца.
Китайские модели: не просто дешевле, а умнее в коде
Забудьте про старые стереотипы. Kimi K2.6 от Moonshot AI и GLM-5.1 от Zhipu AI — это не "бюджетные подделки". Это модели, обученные на терабайтах чистого кода из GitHub, GitLab и внутренних репозиториев китайских tech-гигантов. Они понимают контекст на 128K токенов, поддерживают инструменты (tools) и отлично работают с мультимодальными данными.
Почему они такие дешевые? Китайское правительство субсидирует AI-разработку, а местные облака (Alibaba Cloud, Tencent Cloud) предлагают инференс за копейки. Для нас, разработчиков, это просто удача.
| Модель | Цена за 1M токенов (input) | Контекст | HumanEval (2026) | Поддержка инструментов |
|---|---|---|---|---|
| Claude Opus 4.8 | $78.50 | 200K | 96.7% | Да |
| Kimi K2.6 | $9.20 | 128K | 94.1% | Да (через API) |
| GLM-5.1 | $12.80 | 256K | 93.5% | Да (нативно) |
Разница в 2-3 процентных пункта на синтетическом тесте не означает, что Kimi будет хуже писать ваш бэкенд на Go. На практике, как показало сравнение Kimi K2.5 и Opus, в реальных задачах модели идут ноздря в ноздрю. А в некоторых нишах, типа фармацевтического кода, Kimi даже меньше галлюцинирует (да, есть исследование на эту тему).
Подключение Kimi и GLM за 15 минут: от API до первой строки кода
Технически, Claude Code — это просто фронтенд. Под капотом он отправляет запросы к API Anthropic. Но с февраля 2025 года он поддерживает кастомные эндпоинты. Этим и воспользуемся.
1Регистрация и получение API ключей
Китайские сервисы требуют номер телефона для верификации. Не китайского. Подойдет любой, включая российский.
- Kimi (Moonshot AI): идите на platform.moonshot.cn. Нажмите "Создать API ключ". Бесплатно дают 1 миллион токенов в месяц. Хватит, чтобы протестировать.
- GLM (Zhipu AI): открывайте open.bigmodel.cn. Процесс аналогичный. Там тоже есть бесплатный тир.
2Настройка прокси-сервера (обязательный шаг)
API Kimi и GLM географически ограничены. Без прокси из Европы или США вы получите timeout. Самый простой способ — развернуть легкий прокси на Cloudflare Workers или Fly.io.
Вот код для Cloudflare Worker (файл index.js):
export default {
async fetch(request) {
const url = new URL(request.url);
const targetUrl = url.searchParams.get('url');
if (!targetUrl) {
return new Response('Missing \'url\' parameter', { status: 400 });
}
const modifiedRequest = new Request(targetUrl, {
method: request.method,
headers: request.headers,
body: request.body,
});
const response = await fetch(modifiedRequest);
return response;
}
};
Разверните его, получите свой endpoint, например: https://your-proxy.your-account.workers.dev/?url=
3Конфигурация Claude Code
Откройте настройки Claude Code (Settings → AI Providers). Выберите "Custom Provider".
Для Kimi K2.6 заполните так:
{
"api_base": "https://your-proxy.your-account.workers.dev/?url=https://api.moonshot.cn/v1",
"api_key": "sk-your-kimi-key-here",
"model": "kimi-k2.6",
"max_tokens": 8192,
"temperature": 0.1
}
Для GLM-5.1:
{
"api_base": "https://your-proxy.your-account.workers.dev/?url=https://open.bigmodel.cn/api/paas/v4",
"api_key": "your-glm-key-here",
"model": "glm-5.1",
"max_tokens": 8192,
"temperature": 0.1
}
Сохраните. Перезапустите Claude Code. В выпадающем списке моделей теперь будут ваши Kimi и GLM. Подробнее о тонкостях настройки читайте в гайде по работе с локальными LLM.
4Первый тест и калибровка
Откройте новый чат, выберите модель Kimi K2.6. Напишите:
Напиши функцию на Python, которая парсит лог nginx и находит топ-5 IP-адресов по количеству запросов.
Если получите вменяемый код — все работает. Если ошибку 429 — вы превысили лимит RPM (Requests Per Minute). У китайских API лимиты строже. Добавьте задержку в настройках Claude Code: "Delay between requests: 1000 ms".
Где спрятаны грабли: 5 ошибок, которые сведут экономию на нет
- Игнорирование лимитов контекста. Kimi K2.6 имеет 128K, но эффективно работает с 100K. Если впихнуть 120K — начнутся прерывания. Решение: разбивайте большие файлы на чанки. Автоматизировать это можно через скрипт из нашей статьи про прерывания.
- Температура по умолчанию. Китайские модели часто "перегреты". Для кода ставьте temperature 0.1, а не 0.7. Иначе получите творческие, но нерабочие варианты.
- Кодировка и спецсимволы. API Kimi и GLM ожидают UTF-8. Если в вашем коде есть win-1251 комментарии на русском — будет ошибка. Конвертируйте файлы перед отправкой.
- Отсутствие fallback-модели. Не назначайте Kimi единственным провайдером. Оставьте в списке хотя бы Claude Haiku на экстренный случай. Иначе, если упадет прокси, вы останетесь без AI-помощника.
- Забыть про квоты. Бесплатные лимиты заканчиваются быстро. Поставьте себе уведомление в Telegram через бота, когда останется 10% токенов. Иначе в самый ответственный момент получите "insufficient credits".
Вопросы, которые вы зададите после первого часа работы
Вопрос: Kimi хуже понимает английские промпты?
Ответ: Нет. Модель обучена на двуязычных данных. Но если вы пишете промпт с идиомами типа "break a leg", лучше перефразировать. Для технических задач разницы нет.
Вопрос: Можно ли использовать эти модели для коммерческих проектов?
Ответ: Да, можно. Лицензии Kimi и GLM разрешают коммерческое использование. Но проверьте, не попадает ли ваш проект под санкционные списки — китайские компании соблюдают экспортный контроль.
Вопрос: Что насчет приватности? Китайские компании не смотрят мои данные?
Ответ: Смотрят. Как и Anthropic, и OpenAI. Если у вас сверхсекретный код, используйте локальные модели. Например, KimiLinear-48B можно запустить локально с экономией VRAM. Или прочитайте наш разбор про приватность в 2026 году.
Вопрос: А если я хочу использовать Kimi Code, а не Claude Code?
Ответ: Kimi Code — отдельная IDE, которая умеет работать с видео. У нас есть подробная инструкция по установке Kimi Code. Но если вы привыкли к Claude Code, нет смысла переходить — настройте его под Kimi, как описано выше.
Экономия в 8 раз — не магия. Это результат того, что китайские компании вкладывают миллиарды в AI, чтобы захватить рынок. Воспользуйтесь этим, пока они не подняли цены до западного уровня. Через год, когда Kimi K3.0 обгонит Opus по всем тестам, скидка может быть уже не 800%, а всего 200%. Начните сегодня — через месяц ваш CFO скажет вам спасибо.
P.S. Если после настройки у вас все еще прерываются длинные сессии — не вините модель. Вините свой промпт. Разбейте задачу на подзадачи, явно укажите "продолжи с того места, где остановился". ИИ — не ясновидящий, хотя иногда кажется, что он читает ваши мысли.