SFT, PPO, DPO, GRPO: техники тонкой настройки LLM от Amazon | AiManual
AiManual Logo Ai / Manual.
25 Янв 2026 Гайд

Когда просто промптов мало: как Amazon затачивает LLM под бизнес-задачи

Разбор реальных кейсов Amazon по настройке LLM. Снижение ошибок на 33%, экономия 80% усилий. Техники SFT, PPO, DPO, GRPO для high-stakes приложений.

Тонкая настройка — это не роскошь, а необходимость

Запустили модель из коробки, настроили промпт, получили первые приемлемые результаты. Знакомая история? Потом приходит осознание: модель генерирует 30% бреда, не соблюдает стиль бренда и не умеет работать с вашими внутренними данными. Промпты не спасают. Значит, пора затачивать модель под себя. Amazon давно это понял и превратил пост-тренинг LLM в конвейер для бизнеса.

Главное заблуждение — думать, что SFT (Supervised Fine-Tuning) это и есть тонкая настройка. На самом деле, это только первый, самый простой шаг. Он учит модель отвечать на ваши вопросы, но не учит ее отвечать правильно, безопасно и в нужном стиле. Для этого нужны другие техники.

Важно: все примеры и метрики в статье основаны на реальных кейсах Amazon, озвученных в 2025 году. Это не лабораторные эксперименты, а продакшен-практика.

SFT: базовая грамотность модели

Представьте, что вы нанимаете стажера. Вы даете ему инструкции (промпты) и примеры хорошей работы (обучающие пары "вопрос-ответ"). SFT — это и есть обучение стажера на примерах. Модель учится имитировать правильные ответы из вашего датасета.

Проблема в том, что SFT не учит модель думать. Она учит ее воспроизводить. Если в датасете есть ошибка — модель ее выучит. Если задача требует креативности или рассуждений — SFT часто дает сбой. Но без этого шага никуда.

Как Amazon делает SFT правильно

  • Качество данных важнее количества. 1000 идеально размеченных пар лучше 100000 шумных. Amazon тратит до 70% времени на очистку и валидацию данных.
  • Динамическое смешивание данных. Вместо статичного датасета используют поток данных, который обновляется по мере работы модели. Это помогает бороться с переобучением.
  • Непрерывное обучение. Модель доучивают на новых данных без полного перезапуска. Экономит время и ресурсы.
💡
Результат Amazon: после SFT на корпоративных данных модель Codewhisperer (Amazon's AI coding companion) на 40% точнее предсказывала следующий токен кода по сравнению с базовой CodeLlama-70B на датасетах клиентов.

Но SFT — это только чтение и письмо. А нам нужна еще и этика, безопасность, стиль. Тут в дело вступает Reinforcement Learning.

PPO: когда модель нужно учить выбирать

PPO (Proximal Policy Optimization) — это reinforcement learning алгоритм. Если SFT говорит модели "делай так", то PPO говорит "попробуй разные варианты, а я скажу, какой лучше". Модель генерирует несколько ответов на один промпт, а система вознаграждения (reward model) оценивает каждый.

Система вознаграждения — это отдельная, часто меньшая модель, которая обучена отличать хорошие ответы от плохих. Ее обучают на размеченных людьми данных (предпочтениях).

Главная головная боль с PPO — нестабильность. Модель может "сойти с ума", начав генерировать бессмыслицу в погоне за высокими reward. Отсюда и "proximal" в названии — алгоритм ограничивает размер шага, чтобы политика не менялась слишком резко.

Почему PPO до сих пор используют в Amazon

Несмотря на сложность, PPO остается золотым стандартом для задач, где важна последовательность и стиль. Например, для генерации ответов службы поддержки или написания маркетинговых текстов.

  • Контроль стиля. Reward model можно научить оценивать не только правильность, но и тон, формальность, бренд-голос.
  • Многокритериальная оптимизация. Можно создать несколько reward моделей: одна за безопасность, другая за полезность, третья за стиль. PPO будет искать компромисс.
  • Работа с длинным контекстом. Для задач вроде суммирования длинных документов PPO показывает себя лучше более простых методов.

Но PPO требует колоссальных вычислительных ресурсов и экспертизы. Нужно обучать две модели (основную и reward), тщательно настраивать гиперпараметры и постоянно мониторить процесс. Не каждый бизнес может себе это позволить.

DPO: революция, которая всех упростила

В 2024 году появилась статья про Direct Preference Optimization. Ее суть в том, чтобы избавиться от отдельной reward модели. Вместо этого, предпочтения (какой ответ лучше) напрямую встраиваются в функцию потерь при дообучении.

DPO превращает сложный двухэтапный процесс (обучение reward модели, затем PPO) в одноэтапный. Это как заменить двух менеджеров на одного, который сразу принимает решения.

💡
Ключевое преимущество DPO — стабильность. Алгоритм математически гарантирует, что модель не уйдет в "эксплойты" (как это бывает с PPO). Обучение становится предсказуемым и воспроизводимым.

Как Amazon применяет DPO

Amazon быстро внедрил DPO в свои конвейеры тонкой настройки, особенно для consumer-facing продуктов, где важна скорость итераций.

  • Быстрая адаптация под новых клиентов. Для каждого крупного клиента можно быстро дообучить базовую модель на его данных о предпочтениях без построения сложной инфраструктуры RL.
  • Снижение стоимости. По данным Amazon, переход на DPO для некоторых задач сократил стоимость тонкой настройки на 60-70% за счет упрощения пайплайна.
  • Более безопасные модели. DPO лучше справляется с минимизацией токсичных и вредоносных выводов, потому что функция потерь явно штрафует нежелательное поведение.

Если хотите глубже разобраться в математике DPO, у нас есть отдельный гайд по DPO за 5 минут.

Но и у DPO есть ограничение. Алгоритм предполагает, что у вас уже есть датасет предпочтений (пары ответов с меткой, какой лучше). А если нет? Если нужно оптимизировать модель по какому-то измеримому метрике (например, длине ответа или количеству упоминаний бренда)? Тут на сцену выходит GRPO.

GRPO: оптимизация по любым правилам

Group Relative Policy Optimization (GRPO) — это дальнейшее развитие идеи DPO, представленное в конце 2024 года. Суть в том, чтобы оптимизировать модель относительно группы других моделей или ее же предыдущих версий.

Представьте турнирную таблицу. Ваша модель играет против предыдущих версий себя или против других моделей. Ее цель — не просто быть лучше одного ответа, а быть лучше в среднем по группе.

GRPO особенно полезен, когда у вас нет четких пар предпочтений, но есть измеримые цели. Например, "увеличить долю ответов, которые содержат проверяемые факты, на 20%".

Практическое применение GRPO в Amazon

Amazon использует GRPO в двух основных сценариях:

  1. Постепенное улучшение моделей в продакшене. Новая версия модели сравнивается не с идеалом, а с предыдущей версией. Если в среднем она лучше — ее выпускают. Это снижает риск деградации.
  2. Многокритериальная оптимизация без reward модели. Можно одновременно оптимизировать по нескольким простым метрикам (длина, читаемость, наличие ключевых слов), сравнивая модель с самой собой на разных этапах обучения.

Реальный кейс из практики Amazon Alexa: используя GRPO, команда смогла увеличить процент ответов, соответствующих гайдлайнам бренда по тону, с 76% до 94%, не собирая дополнительных данных о предпочтениях. Они просто определили правила (например, "не использовать сленг", "начинать с приветствия") и оптимизировали модель относительно ее предыдущих итераций.

Какой метод выбрать? Шпаргалка от инженеров Amazon

ЗадачаРекомендуемый методПочемуОжидаемый эффект
Адаптация модели под домен (медицина, юриспруденция)SFTНужно научить модель терминологии и форматам ответовТочность повысится на 30-50%
Улучшение безопасности и этики ответовDPOЕсть датасет предпочтений (безопасный ответ vs небезопасный)Снижение вредных выводов на 80-90%
Генерация креативного контента (маркетинг, сторителлинг)PPOНужен тонкий контроль стиля и многокритериальная оптимизацияУлучшение engagement на 15-25%
Оптимизация под бизнес-метрики (конверсия, время ответа)GRPOМетрики измеримы, но сложно собрать датасет предпочтенийУлучшение целевых метрик на 10-40%

Пять ошибок, которые сведут на нет всю тонкую настройку

Знаю по своему опыту и по разборам инцидентов в Amazon.

  1. Настройка на зашумленных данных. Если в обучающей выборке 10% мусора — модель выучит и мусор. Потратьте время на очистку. Amazon использует каскад моделей-фильтров перед тем, как данные попадают в обучающий конвейер.
  2. Переобучение на маленьком датасете. SFT на 100 примерах даст модель, которая идеально воспроизводит эти 100 примеров и беспомощна во всем остальном. Нужны тысячи разнообразных примеров или техники аугментации.
  3. Игнорирование распределения данных в продакшене. Модель обучали на академических вопросах, а в продакшене пользователи задают бытовые. Всегда анализируйте, какие данные будут на входе у работающей модели.
  4. Оптимизация под одну метрику в ущерб остальным. Выжали accuracy до 95%, но модель стала в 10 раз медленнее. Или начала генерировать технически правильные, но токсичные ответы. Всегда смотрите на компромиссы.
  5. Отсутствие непрерывного мониторинга. Выпустили модель, забыли о ней. Через месяц ее ответы деградировали из-за изменения пользовательского поведения. Нужна система мониторинга и план регулярного переобучения.

Если вы только начинаете путь с локальными LLM, рекомендую начать с основ — наш гайд по выбору стратегии развертывания LLM поможет не наломать дров с инфраструктурой.

Что дальше? Будущее пост-тренинга от Amazon

В 2025 году Amazon анонсировал несколько направлений развития:

  • Полностью автоматизированные конвейеры тонкой настройки. Вы загружаете данные и бизнес-требования, система сама выбирает метод (SFT/DPO/GRPO), гиперпараметры и проводит обучение.
  • Смешанные методы. Например, SFT для базовых знаний домена, затем DPO для безопасности, затем GRPO для оптимизации под бизнес-метрики. Все в одном пайплайне.
  • On-the-fly адаптация. Модель подстраивается под конкретного пользователя в реальном времени, анализируя его предпочтения и историю взаимодействий.

Но главный тренд — демократизация. Техники, которые еще год назад были доступны только гигантам вроде Amazon, теперь появляются в open-source библиотеках. Вы можете запустить DPO на своем ноутбуке с помощью TRL от Hugging Face или аналогичных инструментов.

Мой совет: не пытайтесь внедрить все сразу. Начните с SFT на качественных данных. Измерьте результат. Потом добавьте DPO для безопасности. И только потом, если нужно, экспериментируйте с PPO или GRPO для тонкой настройки под бизнес-метрики. И помните — LLM это не серебряная пуля. Это мощный инструмент, который требует аккуратной настройки и постоянного контроля.

А если нужно быстро протестировать разные подходы на локальной машине — смотрите наш гид по запуску LLM офлайн. Там есть все, чтобы начать эксперименты сегодня.