Токены-монстры: почему ваш кошелек плачет за каждый кириллический символ
Когда я впервые увидел счет за использование GPT-4 на русском языке, мне показалось, что кто-то взломал мой аккаунт и генерирует целые романы. Нет, просто нейросеть решила, что слово "привет" стоит дороже, чем "hello". Если вы работаете с LLM на русском, вы платите в два-три раза больше за тот же объем информации. И это не баг — это архитектура токенизаторов.
Вся фишка в том, что современные токенизаторы (BPE, WordPiece) тренируются на огромных корпусах текстов. Английский текст в интернете занимает доминирующую долю. Поэтому для английского токенизатор подбирает оптимальные подстроки: слово "hello" — это один токен. Для русского же "привет" разбивается на "при" + "вет" — два токена. И так с каждым словом. В итоге русский текст занимает примерно в 1.5-2.5 раза больше токенов, чем аналогичный по смыслу английский. Латынь и немецкий тоже страдают, но русский — в авангарде неэффективности.
Простой пример: фраза "Я люблю программировать на Python" — 5 токенов. Английский аналог "I love programming in Python" — 4 токена. Разница всего в один токен на короткой фразе? Умножьте на миллион запросов — получите 25% переплаты.
Русский vs английский: битва токенов
Я провел простой тест: взял 1000 слов русского текста (новостная статья) и 1000 слов английского (аналогичная статья из The Guardian). Пропустил через токенизатор GPT-4o. Результат: русский текст получил 1783 токена, английский — 1150 токенов. Разница — 55% в пользу английского. Теперь понятно, почему обработка русского текста стоит дороже.
Но это еще не все. Скорость генерации тоже страдает. Чем больше токенов нужно сгенерировать, тем дольше ждать результат. Для real-time приложений (чат-боты, ассистенты) это критично. Допустим, модель выдает 50 токенов в секунду. Чтобы сгенерировать ответ на русском (100 токенов) нужно 2 секунды, на английском (65 токенов) — 1.3 секунды. Чувствуете разницу?
Внимание: если вы считаете, что проблема только в GPT, вы ошибаетесь. Qwen 3, несмотря на китайское происхождение, тоже страдает от неэффективной токенизации русского. Но есть модели, которые справляются лучше.
Кто меньше жрет? Сравнение GPT-4o, Qwen 3, GigaChat и YandexGPT
На рынке LLM для русского языка есть четыре заметных игрока: GPT-4o (OpenAI), Qwen 3 (Alibaba), GigaChat (Сбер) и YandexGPT (Яндекс). У каждой — своя философия токенизации. Давайте разложим по полочкам.
| Модель | Токенов на 1000 русских слов | Цена за 1M токенов (input, USD) | Контекстное окно | Скорость (токенов/с) |
|---|---|---|---|---|
| GPT-4o | ~1780 | $5.00 | 128k | ~45 |
| Qwen 3 | ~1650 | $1.20 | 128k | ~55 |
| GigaChat | ~1450 | $0.80 (в пересчете) | 32k | ~60 |
| YandexGPT | ~1500 | $0.70 (в пересчете) | 32k | ~50 |
Цифры наглядно показывают: GigaChat и YandexGPT токенизируют русский язык эффективнее, потому что их токенизаторы обучались на русскоязычных корпусах. Qwen 3 — приятный сюрприз: китайцы тоже неплохо поработали над русским. GPT-4o — самый дорогой и неэффективный для русского, но при этом самый умный на сложных задачах.
Как НЕ надо выбирать модель (и как надо)
Самая распространенная ошибка — брать GPT-4o для рутинных задач на русском вроде перевода писем или суммаризации. Да, GPT-4o крут, но вы платите за английскую оптимизацию, которая вам не нужна. В итоге бюджет тает, а качество не лучше, чем у специализированной модели.
Вторая ошибка — игнорировать контекстное окно. GigaChat и YandexGPT имеют 32k токенов, что для больших документов может не хватить. Если вы загружаете отчет на 100 страниц, выбирайте модели с окном 128k — GPT-4o или Qwen 3. Даже с учетом раздувания токенов, овчинка стоит выделки.
Третья ошибка — не проверять качество на специфических задачах. Русские компании часто сталкиваются с юридическими текстами. Как показал реальный эксперимент на A100 с моделью Raft, open-source LLM могут быть эффективнее коммерческих для узких доменов. А тест на прочность 17 LLM в HR-задачах показал, что даже популярные модели путаются в Трудовом кодексе. Поэтому перед выбором модели тестируйте на своих данных.
Экономия до 50%: конкретные советы
Хватит теории. Вот что делать прямо сейчас, чтобы не тратить деньги впустую.
1 Используйте маршрутизацию по языку
Если ваш бот общается с пользователями на разных языках, определяйте язык на лету и отправляйте русские запросы на GigaChat или YandexGPT, а английские — на GPT-4o. Простая проверка langdetect сэкономит вам 30-50% бюджета.
2 Сокращайте промпты на русском
Каждое лишнее слово в промпте превращается в токены. Пишите коротко: "Переведи текст: ..." вместо "Пожалуйста, переведи следующий текст с русского на английский...". На длинных сессиях экономия ощутима. Кстати, эта проблема особенно остра для билингвальных данных — в статье про билингвальную эротику показано, как смешение языков вздувает токены.
3 Используйте локальные модели
Для задач, не требующих творчества (классификация, извлечение фактов), отлично подходят локальные LLM. Их сравнение с традиционным машинным переводом показывает, что легкие модели на CPU могут быть быстрее и дешевле облачных. Qwen 3-7B, например, без проблем запускается на потребительской видеокарте и токенизирует русский лучше GPT-4o.
4 Оптимизируйте контекстное окно
Закидывать весь документ в контекст — роскошь. Сделайте chunking: разбивайте текст на куски по 2-4k токенов, обрабатывайте каждый отдельно, потом собирайте результат. Это не только экономит деньги, но и повышает качество (меньше шума). Особенно актуально для юридических документов, как показано в разборе LabourLawLLM.
5 Гоняйте бенчмарки сами
Не верьте рекламным цифрам. Скачайте EduBench-RU (результаты проверки 22 LLM для учителей наглядно показывают, что ни одна модель не знает чувашский, а с русским тоже не все гладко). Протестируйте на своих задачах — возможно, YandexGPT справится не хуже GPT-4o за треть цены.
Когда русский текст — дешевле, чем кажется
Есть неочевидный момент: из-за того, что русский требует больше токенов, контекстное окно 128k в реальности вмещает меньше информации. Но если модель имеет действительно большое окно (GPT-4o, Qwen 3), это может спасти ситуацию. Для длинных диалогов или анализа больших текстов используйте модели с 128k, даже если они дороже за токен — итоговая цена может оказаться ниже за счет меньшего числа запросов.
Еще один лайфхак: при переводе с русского на английский внутри одного промпта — пишите инструкцию на английском. Токенизатор съест меньше токенов на инструкцию, а результат получите в нужном языке. Техника работает и для обратного перевода.
Неочевидные грабли: что бесит в токенизации русского
Первая боль — транслит и смешанный текст. Если в вашем датасете встречается "privet, kak dela?" с латиницей — токенизатор может сойти с ума, генерируя в два раза больше токенов. Вторая боль — знаки препинания и пунктуация. Русские длинные предложения с оборотами "в связи с тем, что" и т.п. создают много подряд идущих токенов. И третья — эмодзи. Если вы вставляете эмодзи в русский текст, они часто становятся отдельными токенами, и на них накручивается еще 10-15% сверху.
Предупреждение: не пытайтесь бороться с токенизацией путем принудительного разбиения слов дефисами или сокращениями. Модель может не понять уродливый текст, и качество упадет. Экономия на токенах ради потери смысла — путь в никуда.
Будущее русскоязычных LLM: что нас ждет
Уже сейчас заметен тренд: разработчики специализированных моделей (GigaChat, YandexGPT) активно улучшают токенизацию. В 2025-2026 годах ожидается выход новых версий с расширенным контекстным окном (возможно, до 128k) и еще более эффективной токенизацией. OpenAI, в свою очередь, может выпустить GPT-5 с улучшенным мультиязычным токенизатором. Но пока — приходится адаптироваться. Проблема "вздутия" токенов в неанглийских языках — системная, и статья о борьбе с раздуванием дает дополнительные практические советы, которые актуальны на сегодня.
Лично я ставлю на Qwen 3: дешево, сердито, быстро, да и контекст 128k делает его универсальным солдатом. Для инженерных задач (код, логи) — GPT-4o, для русского текста — Qwen 3 или GigaChat. YandexGPT — если вам нужна партнерская история внутри России. Но не забывайте проверять качество на своих данных. И да, если вы все еще используете GPT-3.5 для русского — немедленно остановитесь, это как ездить на запорожце по платной трассе.