Почему после дообучения Gemma 4 стала хуже, чем базовая?

Скорее всего, переобучение на узком датасете или синтетический шум. Проверьте распределение длины ответов и разнообразие шаблонов.

Сколько данных реально нужно для узкой задачи?

Для LoRA — минимум 3000, для full fine — от 30 000 уникальных диалогов. Но важнее quality over quantity.

Стоит ли использовать RAG вместе с fine-tuning?

Да, но только если вы научили модель игнорировать нерелевантные чанки. Иначе RAG превращается в утяжелитель контекста.

Какую роль играет формат промпта при fine-tuning?

Критическую. Gemma 4 очень чувствительна к токенизации и ролевым тегам. Лучше всего использовать <start_of_turn>user<end_of_turn> в точности как в предобучении.

Три провальных дообучения Gemma 4: что пошло не так и как исправить

Почему ваша первая попытка дообучить Gemma 4 пойдет под откос?

Разработчики кидаются на fine-tuning как на панацею. Мол, возьмем Gemma 4, скормим пару тысяч диалогов по нашей тематике — и вуаля, готовая продакшн-модель на коленке. Спойлер: после трех месяцев экспериментов я слил 200 часов GPU-времени и пришел к выводу: дообучение Gemma 4 — это искусство не столько настройки, сколько неделания глупостей. В этой статье я разберу три собственных неудачных эксперимента, которые принесли больше пользы, чем все успешные запуски вместе взятые.

Если вы планируете дообучать Gemma 4 — сначала прочитайте про парадокс fine-tuning на английских и корейских данных. Это сэкономит вам неделю подготовки датасета.

Попытка номер один. Вечеринка с 1500 примерами

Идея выглядит логично: берем 1500 диалогов поддержки на русском, размеченных по интенту. Применяем QLoRA с rank=16, запускаем на одной A100. Через 2 часа loss с 1.2 упал до 0.4. Гордые, как павлины, выгружаем модель на инференс.

🔴 Что пошло не так?

Модель начала выдавать однотипные ответы для разных запросов. При вопросе «Как отменить заказ?» — «Пожалуйста, уточните вопрос». На «Как вернуть деньги?» — «Пожалуйста, уточните вопрос». Полная потеря энтропии. Loss на валидации полез до 2.5 через 500 шагов — типичное переобучение на 1500 примерах.

Мы попали в классическую ловушку: маленький датасет с низким разнообразием — модель просто запомнила шаблон, а не обобщила. Как показано в статье про создание переводчика CLI на Gemma 3, для узкой задачи нужно не менее 8000 примеров с разными вариантами формулировок.

🟢 Урок: датасет должен быть >10k и разнообразным

Правило — на один уникальный паттерн нужно не меньше 50-100 примеров. 1500 паттернов? Надо 75-150 тысяч примеров. Если нет денег на разметку — гуглите генерацию синтетики, но осторожно: третий кейс покажет, почему синтетика может убить модель.

Попытка номер два. RAG, который все испортил

После провала с чистым fine-tuning решили добавить RAG. Собрали 50 PDF-инструкций, нарезали чанки, подали в контекст. Gemma 4 27B — модель с длинным окном, поэтому думали: «Скормим 10 чанков, она сама разберется». Запустили — модель начала плевать на инструкцию пользователя и вместо ответа цитировать документ целиком.

Точность на бенчмарке Winogrande упала с 74% до 52%. Модель стала «залипать» на ретривере: если ретривер ошибался, Gemma 4 уверенно галлюцинировала на основе нерелевантного контекста.

Проблема — Gemma 4 при обучении не видела формат «контекст + вопрос». Она воспринимала весь контекст как продолжение промпта и не умела отфильтровывать шум. Сравните с ошибками вызова инструментов в Gemma 4 — там похожая беда с игнорированием подсказок.

🟢 Урок: RAG требует специального промпт-инжиниринга и обучения

Мы добавили явный тег <doc></doc> вокруг каждого чанка и научили модель в инференсе обрабатывать только самый релевантный чанк через внимания маску. Дополнительно прочитали исследование темной цепочки мыслей — оказалось, что принуждение модели сначала анализировать качество контекста (Chain-of-Thought) резко снижает количество галлюцинаций.

Попытка номер три. Синтетический яд от GPT-4

Решили радикально: нагенерировали 100 тысяч диалогов с помощью GPT-4 на русском, тематика — юридическая консультация. Запустили fine-tuning всей модели (не LoRA, а full fine с Deepspeed Zero-3). После 3 дней обучения модель стала звучать как дистиллированная GPT-4 — с длинными, вычурными предложениями и постоянными ссылками на «это является важным аспектом».

Но на тестовых вопросах (не из распределения) — полный провал. Ответы по смыслу пустые, хотя грамматически красивые. Gemma 4 потеряла свои уникальные способности: умение работать с большим контекстом и генерацию коротких, точных ответов. Как видно из кейса странного поведения Gemma 4 26b при генерации кода, она не терпит перекосов в стиль — архитектура заточена под определённый паттерн.

🟢 Урок: синтетика должна быть дистиллирована, а не скопирована

Мы переделали генерацию: сначала GPT-4 выдавала короткий черновик, затем мы сжимали его до 3-4 предложений (как обычно пишет Gemma 4). И только потом использовали для fine-tuning. Точность выросла с 58% до 81% на юридическом тесте.

💡

Кстати, запуск Gemma 4 на смартфоне показал, что модель очень чувствительна к стилю ответа — у неё есть «естественный» уровень детализации, который нельзя ломать.

Что общего у всех трёх провалов?

1. Отсутствие объективной оценки до и после. Мы смотрели loss, но не считали F1 на целевых бенчмарках.
2. Слепая вера в то, что «больше данных — лучше». Качество данных критичнее количества.
3. Игнорирование базовой архитектуры Gemma 4 — она не любит переусложнённые промпты и длинные ответы.

Кстати, FunctionGemma 270M — отличный пример, как маленькая модель может обогнать большую при правильном датасете. Там всего 6k примеров, но они идеально сбалансированы. Парадокс? Только если не знать, что LLM — это не универсальная губка, а сложный фильтр.

1 Альтернатива: обход без дообучения

Если ваша задача — обойти защиту, изменить поведение или добавить новый инструмент, не спешите греть GPU. В статье метод ARA (Arbitrary-Rank Ablation) позволяет модифицировать веса без обучения — прямо во время инференса. Для многих сценариев этого хватает. А активировать режим рассуждения в LM-Studio — вообще дело 5 минут.

FAQ: вопросы, которые мне задают после каждой лекции

В: Почему после дообучения Gemma 4 стала хуже, чем базовая?: О: Скорее всего, переобучение на узком датасете или синтетический шум. Проверьте распределение длины ответов и разнообразие шаблонов. Loss может падать, а качество — деградировать.
В: Сколько данных реально нужно для узкой задачи?: О: Для LoRA — минимум 3000, для full fine — от 30 000 уникальных диалогов. Но важнее quality over quantity: 5000 примеров с 95% точностью разметки побьют 50 000 с 60%.
В: Стоит ли использовать RAG вместе с fine-tuning?: О: Да, но только если вы научили модель игнорировать нерелевантные чанки. Иначе RAG превращается в утяжелитель контекста. Сначала проконтролируйте качество ретривера, а потом уже дообучайте.
В: Какую роль играет формат промпта при fine-tuning?: О: Критическую. Gemma 4 очень чувствительна к токенизации и ролевым тегам. Лучше всего использовать <start_of_turn>user<end_of_turn> в точности как в предобучении.

И последнее: если ваша задача решается без дообучения — не дообучайте. Используйте лучше техники промпт-инжиниринга, RAG и методы вроде ARA. Fine-tuning должен быть последним инструментом, а не первым. Помните: каждая потраченная на обучение эпоха — это минус из вашего бюджета на GPU и плюс к седине.

Подписаться на канал

Три неудачных попытки дообучения Gemma 4: разбор ошибок и практические уроки