Почему все боятся full-parameter tuning и зря

Открою секрет: 90% статей про тонкую настройку LLM заканчиваются на LoRA. Авторы пишут про экономию памяти, быструю конвергенцию, маленькие адаптеры. Но молчат о главном — когда вам действительно нужно качество, а не экономия, придется учить все параметры. И это не так страшно, как кажется.

Представьте ситуацию: у вас есть 14B-параметровая модель (скажем, Llama 3.2-14B или GLM-4.7-14B) и 50 часов качественного видео с объяснением математики на доске. Вы хотите создать лучшего в мире репетитора по математике. LoRA даст вам 80% результата за 20% усилий. Но эти недостающие 20% — разница между "хорошо объясняет" и "гениально объясняет".

Актуальность на 13.02.2026: GPT-4.5, Claude 3.7 и Llama 3.2 уже несколько месяцев как вышли. Их архитектуры стали сложнее, а full-parameter tuning стал доступнее благодаря оптимизациям в PyTorch 2.4 и Hugging Face Transformers 4.45.

Что на самом деле меняется при полном обучении

LoRA работает как наклейка на автомобиль — меняет внешний вид, но не двигатель. Full-parameter tuning — это полная переборка двигателя под новые условия. Разница в том, как модель обрабатывает контекст, как формирует внутренние представления, как активирует attention heads.

Возьмем наш пример с математическим репетитором. При LoRA модель научится правильно отвечать на вопросы про производные. При full tuning она поймет логику вывода производной, сможет генерировать новые примеры, адаптировать объяснение под уровень ученика. Разница фундаментальная.

1 Выбор метода: когда что использовать

Метод	Параметры	VRAM	Когда использовать	Качество
LoRA	0.1-1% от модели	8-16GB	Быстрый прототип, адаптация стиля	Хорошее
QLoRA	0.1-1% от модели	6-12GB	Ограниченные ресурсы, большие модели	Удовлетворительное
Full-Parameter	100% параметров	80GB+ (A100/H100)	Создание экспертной модели	Отличное

Если вы еще не определились с методом, почитайте мою таксономию методов тонкой настройки — там подробный разбор каждого подхода.

Подготовка данных: почему видео с доской — идеальный датасет

Математическое объяснение на доске — золотой стандарт для обучения. Почему? Потому что это структурированный knowledge transfer: преподаватель последовательно выводит формулы, объясняет каждый шаг, делает паузы для осмысления. При транскрибировании получается идеально размеченный датасет.

На 50 часах видео вы получите примерно:

3000-5000 примеров "вопрос-ответ"
Естественные паузы и переходы между темами
Разные стили объяснения (от простого к сложному)
Мультимодальность (формулы + речь + визуализация)

Но есть нюанс: автоматическое транскрибирование математических формул работает плохо. Нужна ручная проверка или специализированные инструменты вроде Mathpix. Иначе модель научится генерировать "sin(x) равно синус икс".

2 Форматирование данных для обучения

Самый частый косяк — неправильное форматирование. Модель не понимает, где заканчивается контекст и начинается ответ. Решение простое: используйте четкие разделители.

# ПРАВИЛЬНО
instruction = "Объясни, как найти производную функции f(x) = x^2"
output = "Чтобы найти производную функции f(x) = x^2, используем правило..."

# В JSON формате для Hugging Face Datasets
{
  "instruction": instruction,
  "output": output,
  "context": ""  # дополнительный контекст если нужен
}

Не делайте так:

# НЕПРАВИЛЬНО
"text": "Вопрос: Как найти производную? Ответ: Нужно взять предел..."
# Модель запутается в разделении

Стек технологий 2026 года: что изменилось

Если в 2024-2025 все использовали PEFT для LoRA, то сейчас появились более эффективные альтернативы. Вот актуальный стек на 13.02.2026:

Задача	Инструмент	Версия	Почему именно он
Обучение	PyTorch + FSDP	2.4+	Поддержка H100, оптимизации памяти
Работа с моделями	Hugging Face Transformers	4.45+	Автоматическое распределение по GPU
LoRA/QLoRA	PEFT + bitsandbytes	0.12+	Поддержка 4-bit, 8-bit обучения
Оценка	lm-evaluation-harness	0.4+	Стандартизированные бенчмарки

💡

FSDP (Fully Sharded Data Parallel) в PyTorch 2.4 стал значительно стабильнее. Раньше он падал при обучении больших моделей, сейчас работает как часы. Если у вас доступ к кластеру с несколькими A100/H100 — это ваш выбор.

Рецепт обучения: от запуска до оценки

Вот пошаговый план для full-parameter tuning 14B модели на суперкомпьютере с 8x H100 (по 80GB каждый):

3 Настройка окружения

# Установка последних версий на 13.02.2026
pip install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip install transformers==4.45.0 datasets==2.20.0 accelerate==0.30.0
pip install peft==0.12.0 bitsandbytes==0.43.0

# Для оценки
pip install lm-evaluation-harness==0.4.3

4 Конфигурация обучения

Основные гиперпараметры для 14B модели:

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,           # Для full-tuning достаточно 2-3 эпох
    per_device_train_batch_size=2, # На H100 80GB можно поставить 2-4
    gradient_accumulation_steps=8, # Эффективный batch size = 2 * 8 * 8(GPU) = 128
    learning_rate=1e-5,           # Маленький LR для полного обучения
    warmup_steps=500,
    logging_steps=10,
    save_steps=1000,
    eval_steps=500,
    evaluation_strategy="steps",
    save_total_limit=3,
    fp16=True,                    # Используем mixed precision
    gradient_checkpointing=True,  # Критически важно для экономии памяти
    deepspeed="ds_config.json",    # Конфигурация DeepSpeed
    report_to="wandb",            # Мониторинг через Weights & Biases
    ddp_find_unused_parameters=False,
)

5 Запуск обучения с FSDP

# Запуск на 8 GPU с FSDP
torchrun --nproc_per_node=8 \
    --nnodes=1 \
    --node_rank=0 \
    --master_addr=localhost \
    --master_port=29500 \
    train.py \
    --model_name_or_path "meta-llama/Llama-3.2-14B" \
    --dataset_name "./math_tutor_dataset" \
    --fsdp "full_shard" \
    --fsdp_config fsdp_config.json

Внимание: FSDP требует правильной настройки sharding strategy. Если сделать неправильно, память закончится быстрее, чем начнется обучение. Всегда тестируйте на одном GPU сначала.

А что если нет суперкомпьютера?

Полное обучение 14B модели требует минимум 80GB VRAM в FP16. Но что делать, если у вас только RTX 4090 с 24GB или даже обычная карта с 8GB?

Вариант 1: QLoRA — обучение в 4-bit с адаптерами. Качество будет хуже, но для многих задач достаточно.

from peft import LoraConfig, get_peft_model
from transformers import BitsAndBytesConfig

# 4-bit quantization
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
)

# LoRA конфигурация
lora_config = LoraConfig(
    r=16,                      # Rank адаптеров
    lora_alpha=32,
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

Вариант 2: CPU offloading — частичное размещение модели в оперативной памяти. Медленно, но работает. Подробнее в моей статье про запуск больших моделей на старом железе.

Вариант 3: Аренда облачного инстанса с A100/H100. На 13.02.2026 час аренды H100 80GB стоит $8-12. Полное обучение 14B модели займет 24-48 часов. Итого $200-500. Дешевле, чем покупать оборудование.

Оценка результатов: как понять, что модель стала лучше

Самая большая ошибка — оценивать модель только по loss или perplexity. Эти метрики показывают, насколько хорошо модель предсказывает следующий токен, но не показывают качество ответов.

Что нужно проверять:

Математическая точность — проверьте 100 случайных примеров вручную
Стиль объяснения — стал ли он более педагогичным?
Обобщение — решает ли модель задачи, которых не было в датасете?
Катастрофическое забывание — не забыла ли модель общие знания?

Для автоматической оценки используйте бенчмарки:

# Оценка на математических задачах
lm_eval \
    --model hf \
    --model_args pretrained=./my_finetuned_model \
    --tasks gsm8k,mathqa,hendrycks_math \
    --device cuda:0 \
    --batch_size 4

Частые ошибки и как их избежать

1. Переобучение на маленьком датасете

Симптомы: модель идеально решает примеры из тренировочного набора, но не справляется с новыми задачами.

Решение: используйте early stopping, увеличивайте датасет через аугментацию, добавляйте регуляризацию.

2. Катастрофическое забывание

Модель забывает, как говорить на общие темы, становится узкоспециализированным идиотом-савантом.

Решение: добавляйте 10-20% общих диалогов в датасет, используйте меньший learning rate, делайте меньше эпох.

3. Нехватка памяти при FSDP

Ошибка: CUDA out of memory даже на нескольких H100.

Решение: уменьшайте batch size, включайте gradient checkpointing, используйте offloading части параметров на CPU.

💡

Если вы работаете с MoE-архитектурами вроде GLM-4.7, обратите внимание на мою статью про GLM-4.7-REAP-50-W4A16. Там есть специфичные для MoE техники оптимизации.

Стоит ли игра свеч?

Full-parameter tuning 14B модели на суперкомпьютере — это дорого, сложно и требует экспертизы. Но когда вам нужно создать продукт, который на голову выше конкурентов, другого пути нет.

LoRA и QLoRA хороши для быстрого прототипирования, адаптации модели под конкретный стиль или когда ресурсы ограничены. Но если вы строите математического репетитора уровня лучшего преподавателя мира — учите все параметры.

На 13.02.2026 разрыв между LoRA и full tuning стал меньше благодаря улучшениям в методах адаптивного обучения. Но фундаментальная разница остается: полное обучение меняет саму суть модели, а не только ее поведение на поверхности.

Мой совет: начните с LoRA, оцените качество. Если не хватает — переходите к full tuning на облачных инстансах. Не покупайте оборудование ради одного проекта — арендуйте. И никогда не оценивайте результат только по метрикам — смотрите на реальные ответы.

И последнее: лучшая модель — та, которая решает вашу задачу. Иногда достаточно хорошо настроенной LoRA. Но когда нужно превосходство — готовьтесь к full-parameter tuning.

Полный гайд по fine-tuning больших моделей: от LoRA до Full-Parameter на суперкомпьютере