Зачем лезть в черепную коробку квантованной модели?

Скачали свежую Gemma 4 31B в GGUF, запустили через llama.cpp, а она ведет себя не так, как хочется? Знакомо. Квантование – это компрессия, а не пластическая хирургия. Модель теряет нейроны, а вместе с ними – часть «личности». Orthogonalized Representation Intervention (ORI) – это попытка провести ювелирную операцию на уже сжатых весах. Не дообучение, а точечное вмешательство в представления.

На 03.04.2026 метод ORI для Gemma 4 31B – экспериментальный инструмент. Он не делает модель умнее, а корректирует конкретные паттерны в ее поведении после агрессивного квантования (например, в формате Q4_K_M). Результаты непредсказуемы: может заработать лучше, а может начать генерировать абракадабру.

Что скрывает в себе «модифицированный» репозиторий?

Вместо того чтобы квантовать модель с нуля, энтузиасты выкладывают готовые GGUF-файлы и Python-скрипт для их «апгрейда». В коробке обычно лежит три версии:

gemma-4-31b-original.FP16.gguf – нетронутый исходник в полной точности. Весит под 60 ГБ, нужен только как донор для операций.
gemma-4-31b-quant.Q8_0.gguf – 8-битное квантование. Качество почти как у оригинала, но размер уже приемлемый для мощных видеокарт.
gemma-4-31b-quant.Q4_K_M.gguf – главный герой. 4-битный формат, который влезает в 16-24 ГБ памяти. Именно его чаще всего и модифицируют, потому что потери здесь наиболее заметны.

Плюс к этому – скрипт apply_ori.py, который берет эти файлы и применяет к ним методику Orthogonalized Representation Intervention. По сути, он пересчитывает веса в определенных слоях, пытаясь «ортогонализировать» представления и убрать шум, внесенный квантованием. Если вам интересно, как вообще устроены эти форматы, посмотрите наше подробное объяснение про квантование GGUF.

1 Скачиваем артефакты и ставим зависимости

Все крутится вокруг одного конкретного репозитория на Hugging Face. Для работы скрипта нужен Python 3.10+ и скромный набор библиотек: torch, transformers, huggingface-hub. Установите их через pip. Если у вас уже стоит окружение для локального запуска Gemma 4, то, скорее всего, всё уже есть.

pip install torch transformers huggingface-hub

2 Запускаем скрипт абляции (и ждем)

Скрипт написан так, что он сам скачает нужные GGUF-файлы, если их нет. Ваша задача – указать, какую версию вы хотите модифицировать. Команда выглядит примерно так:

python apply_ori.py --model_id "username/gemma-4-31b-gguf" \
                    --quantization q4_k_m \
                    --output_dir ./modified_models

Процесс не быстрый. Скрипт загружает FP16-версию как эталон, затем загружает квантованный файл и слой за слоем применяет интервенцию. На системе с мощным GPU (например, RTX 4090) это займет 20-30 минут. На CPU – считайте, что на ночь. Если у вас были проблемы с производительностью Gemma 3, тут они могут повториться.

💡

Скрипт по умолчанию модифицирует только attention-слои. Это разумно, потому что именно они сильнее всего страдают от квантования. Но в коде есть флаги, чтобы вмешаться и в MLP-блоки. Попробуйте, если чувствуете азарт экспериментатора.

3 Тестируем результат в llama.cpp

На выходе вы получите новый GGUF-файл с приставкой _ori в имени. Запускайте его через llama.cpp как обычно. Размер файла не изменится – модифицируются только числовые значения весов внутри существующей структуры.

./main -m ./modified_models/gemma-4-31b-quant.Q4_K_M_ori.gguf \
       -p "Кратко объясни квантовую запутанность" \
       -n 256

А что на практике? Примеры изменений

ORI не добавит модели знаний по квантовой физике. Его цель – улучшить согласованность вывода. После модификации модель может:

Реже «зацикливаться» на повторяющихся фразах в длинных диалогах.
Лучше сохранять контекст в задачах на суммирование 2-3 документов.
Снизить количество грамматических ляпов в сгенерированном тексте (тех, что появились именно после квантования).

Но это в теории. На практике я видел, как после ORI модель начинала путать формальность и неформальность тона без видимой причины. Всегда проверяйте на своих промптах.

Чем ORI лучше или хуже других методов?

Это не финтюн. Не дообучение с LoRA. И не кража весов, как в некоторых взломанных версиях Gemma 3. ORI работает после квантования и пытается исправить уже нанесенный ущерб. Альтернативы?

Метод	Когда использовать	Сложность
ORI (этот гайд)	Уже есть квантованная GGUF, хочется ее «подточить» без полной переконвертации.	Средняя. Нужен Python и понимание, что делаешь.
Квантование с imatrix	Есть исходная модель в FP16, можно квантовать с нуля с калибровкой. Дает лучшее качество изначально.	Высокая. Требует датасет для калибровки и время. Мы об этом писали.
Использование менее агрессивного формата	Просто взять Q6_K или Q8_0 вместо Q4_K_M. Жертвуешь размером, но получаешь стабильность.	Низкая. Просто скачать другой файл.

ORI – для тех, кому критичен каждый гигабайт, но и каждый процент качества тоже. Если у вас есть 16 ГБ VRAM и вы пытаетесь выбрать между моделями, возможно, лучше посмотреть на сравнение Qwen2.5 и Mistral.

Кому это вообще сдалось?

Резюмирую. Категории пользователей, которые выжмут из ORI максимум:

Исследователи-одиночки, которые тестируют гипотезы о влиянии квантования на внутренние представления моделей. Скрипт – готовый инструмент для абляции.
Энтузиасты с жесткими ограничениями по памяти, которые уже прижали модель квантованием Q4_K_M, но хотят выжать из нее еще каплю адекватности для конкретной задачи (например, генерации кода).
Любители поковыряться в кишках, которые получают кайф от самого процесса модификации весов. (Признайтесь, вы такие.)

Если же вам нужна стабильно работающая Gemma 4 31B для продакшена – забудьте про ORI. Возьмите оригинальную модель в FP16 или хотя бы Q8_0. Или подождите, пока метод доработают и обоснуют. К 2027 году, возможно, это станет стандартной практикой пост-обработки квантованных моделей. А пока – это острый экспериментальный скальпель, а не универсальный ремонтный набор.

Подписаться на канал

Orthogonalized Representation Intervention для Gemma 4 31B: как использовать модифицированные квантования в GGUF