Почему русский текст "весит" в три раза больше английского

Запускаете Mistral или Llama 3 на русском тексте и удивляетесь, почему ответ генерируется в пять раз медленнее? Поздравляю, вы столкнулись с токен-блоатом — проблемой, которая сводит с ума всех, кто работает с неанглийскими языками в локальных LLM.

Суть в том, что большинство современных моделей обучали на английских датасетах. Их токенизаторы оптимизированы под латиницу. Когда вы пишете "привет", модель видит не одно слово, а три токена: "при", "вет", и специальный разделитель. Английское "hello" — один токен.

Цифры не врут: средний русский текст требует в 2-3 раза больше токенов, чем эквивалентный по смыслу английский. В некоторых случаях разница достигает 5x. Это не просто медленнее — это дороже в облачных API и убийственно для локальных инференсов.

Что на самом деле происходит внутри токенизатора

Возьмем популярный SentencePiece (основа BPE), который используют в Llama, Mistral, и большинстве современных моделей. Алгоритм прост: берет частые последовательности символов и превращает их в токены. Проблема в "частых".

Если в обучающих данных 90% английского текста, то "th", "ing", "ation" становятся токенами. Кириллические "пр", "ст", "ов" тоже попадают в словарь, но с меньшими весами. Результат? Токенизатор разбивает русские слова на более мелкие куски.

# Пример токенизации через transformers
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.2-3B-Instruct")

# Английский текст
english_text = "The quick brown fox jumps over the lazy dog"
english_tokens = tokenizer.encode(english_text)
print(f"Английских токенов: {len(english_tokens)}")  # Обычно 10-12

# Русский текст аналогичной длины
russian_text = "Быстрая коричневая лиса перепрыгивает через ленивую собаку"
russian_tokens = tokenizer.encode(russian_text)
print(f"Русских токенов: {len(russian_tokens)}")  # Будет 25-30!

Разница в 2.5-3 раза — это не погрешность. Это системная проблема, которая влияет на всё: от скорости генерации до потребления памяти и качества ответов.

Модели, которые не ненавидят кириллицу

К 2026 году ситуация улучшилась, но не радикально. Вот что реально работает:

Модель	Версия (актуально на 16.02.2026)	Коэффициент раздувания	Особенности
DeepSeek-R1	V3 32B	1.8x	Лучшая мультиязычная оптимизация
Qwen 2.5	32B-Instruct	2.1x	Отличная поддержка китайского помогает русскому
Llama 3.2	3B/7B/11B	2.5x	Стандартный BPE, но с улучшенным словарем
Mistral-Nemo	12B-2407	2.3x	Хороший баланс качества и скорости
Russian-optimized models	Saiga 3, GigaChat	1.5-1.8x	Специально обучены на русском

💡

Неочевидный факт: модели, хорошо работающие с китайским и арабским, часто лучше справляются и с русским. Причина в том, что их токенизаторы изначально проектировались для нелатинских алфавитов. Qwen 2.5 — отличный пример такой «побочной» оптимизации.

Если вам нужна максимальная производительность на русском, посмотрите на специализированные модели с поддержкой Tool Calling. Многие из них имеют улучшенные токенизаторы.

Технические хаки: от простого к сложному

1 Квантование — ваш лучший друг

Когда токенов в 3 раза больше, вам нужно в 3 раза больше памяти для обработки. Или нет?

Квантование моделей с помощью GGUF/EXL2 форматов решает проблему кардинально. Переход с FP16 на Q4_K_M экономит 70% памяти с минимальной потерей качества. Для русских текстов это не роскошь, а необходимость.

# Конвертация в GGUF с разными уровнями квантования
python convert.py ./mistral-nemo-12B --outfile ./mistral-nemo-12B-Q4_K_M.gguf \
  --quantize q4_k_m

# Для экстремальной экономии (если готовы к потере качества)
python convert.py ./model --outfile ./model-Q2_K.gguf --quantize q2_k

Ollama автоматически применяет квантование, но вы можете контролировать процесс. В llama.cpp используйте флаги -ngl для указания слоев на GPU и -c для ограничения контекста.

2 Кастомные токенизаторы и дообучение

Если вы серьезно настроены, можно дообучить токенизатор на русских текстах. Это сложно, но результаты впечатляют.

Внимание: изменение токенизатора ломает совместимость с оригинальными весами модели. Нужно дообучать и модель тоже. Не для слабонервных.

Более простой путь — использовать модели с уже расширенным словарем. Некоторые энтузиасты публикуют версии Llama и Mistral с добавленными русскими токенами.

3 Промпт-инжиниринг для экономии токенов

Правильный промпт может сократить количество токенов на 20-30%. Вот что работает:

Используйте английские термины в русских промптах: "Напиши SQL query для выборки данных" вместо "Напиши SQL запрос для выборки данных". Модель поймет, а токенов будет меньше.
Сокращайте вежливость: "Объясни" вместо "Пожалуйста, объясни мне, если тебе не сложно".
Избегайте длинных вступлений: сразу переходите к сути.

Интересно, что сложные задачи иногда решаются проще, чем кажется, и для этого не нужны многословные инструкции.

Практический пример: настройка llama.cpp для русского

Допустим, у вас есть Llama 3.2 7B и нужно максимально ускорить работу с русскими текстами.

# Скачиваем квантованную версию (Q4_K_M оптимален)
wget https://huggingface.co/meta-llama/Llama-3.2-7B-Instruct-GGUF/resolve/main/llama-3.2-7b-instruct-q4_k_m.gguf

# Запускаем с оптимизированными параметрами
./main -m llama-3.2-7b-instruct-q4_k_m.gguf \
  -n 512 \                 # Максимальное количество генерируемых токенов
  -c 4096 \                # Размер контекста (не больше, чем нужно)
  -ngl 35 \                # 35 слоев на GPU (если есть)
  -t 8 \                   # Количество потоков CPU
  --repeat-penalty 1.1 \   # Штраф за повторения (важно для русских текстов)
  --color \                # Цветной вывод
  -i \                     # Интерактивный режим
  -r "Пользователь:" \     # Разделитель для диалога
  --prompt "Ты — помощник, отвечающий на русском. Отвечай кратко."

Ключевой момент: ограничивайте контекст (-c). Русские тексты быстро его заполняют. 4096 токенов — это примерно 1500-2000 русских слов, что для большинства задач достаточно.

Ollama vs LM Studio: где меньше блоат?

Провел тесты в феврале 2026. Результаты:

Ollama использует более агрессивное квантование по умолчанию. Модели занимают меньше места, работают быстрее, но иногда теряют в качестве ответов на сложных русских промптах.
LM Studio дает больше контроля над параметрами. Можно точно настроить баланс между скоростью и качеством. Но требует больше ручной работы.
llama.cpp — чемпион по оптимизации. Если готовы к командной строке, получите максимальную производительность.

Для детального сравнения смотрите полный обзор инструментов для локального запуска.

Ошибки, которые все совершают (и как их избежать)

Ошибка 1: Использование моделей с размером контекста 128к для русских чатов. Звучит круто, пока не понимаешь, что 128к токенов — это 40-50 тысяч русских слов. Модель будет тормозить ужасно. Берите 4к-8к для большинства задач.

Ошибка 2: Запуск без квантования на слабом железе. FP16 версия Llama 3.2 7B требует ~14GB памяти. Та же модель в Q4_K_M — ~4.5GB. Разница очевидна.

Ошибка 3: Игнорирование системного промпта. Указание "Отвечай на русском кратко" в системном промпте экономит 10-15% токенов на каждом ответе.

Если только начинаете, изучите типичные ошибки при локальном запуске — многие из них усугубляются с неанглийскими языками.

Будущее: когда проблема исчезнет?

К концу 2026 ожидаются модели с truly multilingual токенизаторами. Не те, где русский добавлен "для галочки", а сбалансированные по всем языкам.

Первые признаки уже есть: DeepSeek-R1 показывает, что можно достичь коэффициента раздувания всего 1.5x без потери качества. Секрет в динамической токенизации, которая адаптируется к языку входного текста.

Пока же работайте с тем, что есть. Выбирайте модели с хорошей мультиязычной поддержкой, квантуйте их, оптимизируйте промпты. И помните: иногда проще перевести текст на английский, обработать, и перевести обратно. Да, это костыль. Но он работает.

💡

Последний совет: Собирайте свои промпты и тестируйте разные модели. Используйте готовые коллекции промптов для тестирования как основу. Только эмпирические тесты покажут, какая модель и настройки лучше всего работают именно с вашими русскими текстами.

P.S. Если кажется, что модель "тупит" на русском, возможно, она не тупит. Возможно, она просто обрабатывает в три раза больше токенов, чем вы ожидаете. Теперь вы знаете, что с этим делать.

Когда токены вздуваются: как бороться с раздуванием в неанглийских языках