Fine-tuning - это круто. Но иногда это просто глупо

Каждый второй пост в AI-сообществах про fine-tuning. Загрузил датасет, запустил скрипт - получил свою модель. Звучит как магия, пока не столкнешься с реальностью: модель забывает английский, генерирует бессмыслицу или просто игнорирует твои нишевые данные.

Я видел десятки проектов, где команда тратила месяцы на тонкую настройку GPT-4o-Mini, а потом с ужасом обнаруживала, что модель работает хуже, чем простая prompt-инженерия. (Кстати, если интересно, почему так происходит - у меня есть статья про катастрофическое забывание).

Так когда же действительно стоит обучать с нуля? Давайте разберем на реальных примерах.

Пять случаев, когда fine-tuning не спасет

Кейс	Почему fine-tuning провалится	Решение
Специфический доменный язык	Модель не знает терминов, ассоциаций, контекста	Обучение с нуля на доменных текстах
Низкоресурсный язык	В базовой модели просто нет лингвистических паттернов	С нуля на нативных текстах
Архитектурные ограничения	Нужен другой attention, размер контекста, токенизатор	Кастомная архитектура
Правовые ограничения	Нельзя использовать данные из предобучения	Обучение только на лицензионных данных
Экстремальная эффективность	Модель-гигант не помещается на устройство	Маленькая специализированная модель

Важно: Fine-tuning работает, когда модель уже понимает предметную область. Если она не знает базовых понятий - вы учите слепого различать оттенки цветов. Бесполезно.

Реальный кейс: медицинские протоколы на 128 ГБ ОЗУ

Ко мне обратилась команда из медицинского стартапа. У них - 50 000 страниц протоколов лечения, написанных на странной смеси латыни, аббревиатур и внутренних кодов. Они пытались fine-tune'ить Llama 3.1 8B. Результат? Модель либо генерировала общие фразы, либо вообще молчала.

💡

Проблема в токенизаторе. Стандартные LLM токенизируют "кардиомиопатия" как один токен, но медицинские аббревиатуры вроде "HTN-DM-CKD" разбиваются на бессмысленные части. Модель никогда не научится их понимать через fine-tuning.

1 Создаем кастомный токенизатор

Первое - обучаем BPE-токенизатор на медицинских текстах. Это 2-3 часа работы и 32 ГБ RAM.

from tokenizers import Tokenizer, models, trainers, pre_tokenizers
from datasets import load_dataset

# Загружаем медицинские тексты
medical_texts = load_dataset("medical_protocols", split="train")

# Создаем и обучаем токенизатор
tokenizer = Tokenizer(models.BPE())
trainer = trainers.BpeTrainer(
    vocab_size=50000,  # Больше, чем стандартные 32k
    special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"]
)
tokenizer.train_from_iterator(
    medical_texts["text"],
    trainer=trainer
)

# Сохраняем для обучения модели
tokenizer.save("medical_tokenizer.json")

2 Собираем архитектуру под задачу

Медицинские протоколы редко требуют длинных рассуждений. Нужна точность, а не креативность. Выбираем архитектуру с меньшим числом слоев, но большим hidden size.

from transformers import GPT2Config, GPT2LMHeadModel

config = GPT2Config(
    vocab_size=50000,
    n_positions=2048,  # Увеличиваем контекст
    n_embd=1024,
    n_layer=16,  # Меньше слоев, чем у стандартных моделей
    n_head=16,
    bos_token_id=1,
    eos_token_id=2
)

model = GPT2LMHeadModel(config)
print(f"Параметров: {model.num_parameters():,}")  # ~150M параметров

3 Обучение на специализированном железе

Для 150M параметров хватит одной A100 40GB. Обучение займет 3-5 дней. Стоимость на облаке: $200-300.

Результат: Модель в 20 раз меньше Llama 3.1, но на медицинских протоколах показывает accuracy 94% против 67% у fine-tuned версии. И работает на обычном сервере без GPU.

Стоимость: шокирующая математика

Все говорят про стоимость обучения, но никто не считает полный цикл. Давайте посчитаем на 2026 год:

Статья расходов	Fine-tuning Llama 3.1 8B	Обучение с нуля (150M)
Облачные GPU (1 неделя)	$500-700	$200-300
Инфраструктура (инференс)	A100 40GB ($3/час)	CPU сервер ($0.5/час)
Задержка ответа	200-500 мс	50-100 мс
Правовые риски	Высокие (лицензия модели)	Низкие (ваши данные)
Годовая стоимость	$26,000+	$4,400

Обучение с нуля дешевле в 6 раз на горизонте года. И это без учета того, что ваша модель - актив, а не аренда.

Когда fine-tuning все-таки выигрывает

Не создавайте себе лишней работы. Вот случаи, когда fine-tuning - правильный выбор:

Стилизация текста: Хотите, чтобы модель писала как Хемингуэй или генерировала маркетинговые тексты в вашем стиле. Базовая модель уже знает язык, нужно только адаптировать стиль.
Дополнительные инструкции: Нужно научить модель формату вывода (JSON, XML, специфические шаблоны).
Мало данных: У вас 1000 примеров, а не 100 000. Обучение с нуля просто не сойдется.
Мультимодальность: Добавляете vision capabilities к текстовой модели. Переучивать с нуля - безумие.

Интересный парадокс описан в статье про fine-tuning на 3% данных. Иногда меньше - значит лучше.

Технические ловушки обучения с нуля

Решили обучать? Готовьтесь к этим проблемам:

Ловушка 1: Несходимость
Модель на 150M параметров может не сойтись, если данные плохо очищены. В отличие от fine-tuning, где базовая модель уже стабильна.

Ловушка 2: Переобучение на маленьких данных
Вы создали идеальный токенизатор под 50 000 документов. Добавили еще 1000 - и все сломалось. Нужно переобучать токенизатор.

Ловушка 3: Экосистема
Ваша кастомная модель не работает с LangChain, LlamaIndex, vLLM. Придется писать адаптеры.

Практический чек-лист: обучать с нуля или нет?

Обучайте с нуля, если:

У вас >100 000 нишевых документов (медицина, юриспруденция, инженерия)
Данные содержат специфическую терминологию, которую нет в Common Crawl
Требуется деплой на ограниченных ресурсах (CPU, мобильные устройства)
Правовые требования запрещают использование предобученных моделей
Вы планируете использовать модель 2+ года (окупается разработка)

Выбирайте fine-tuning, если:

Нужно адаптировать стиль или формат вывода
Данных <10 000 примеров
Требуется мультимодальность или сложные рассуждения
Прототип нужен "вчера" (fine-tuning - 2-3 дня против 2-3 недель)
Команда не имеет опыта в low-level ML

Что будет в 2027? Мой прогноз

Сейчас тренд - гигантские мультимодальные модели. Но я вижу обратное движение. В 2026 уже появляются инструменты вроде LLM Factory (аналог Model Garden от Google, но open-source), которые позволяют за 5 кликов собрать кастомную архитектуру и запустить обучение.

К 2027 году обучение специализированной 500M модели будет стоить <$100 и занимать 12 часов. Fine-tuning останется только для творческих задач и быстрых экспериментов.

Уже сейчас появляются модели, которые догоняют гигантов при правильной архитектуре. Об этом я писал в статье про парадокс 32B-моделей.

🚀

Совет напоследок: Начните с fine-tuning на 1000 примеров. Если accuracy <70% - задумайтесь об обучении с нуля. Если >85% - вы на правильном пути. Между этими значениями - сервая зона, где нужно считать стоимость владения на 2 года вперед.

P.S. Если решите обучать с нуля - не повторяйте ошибку студентов из статьи про провал ИИ-репетитора. Они выбрали fine-tuning, когда нужна была кастомная модель. Потратили 6 месяцев впустую.

Когда стоит обучать свою модель с нуля: практические кейсы и сравнение с готовыми решениями