Что такое sycophancy?

Sycophancy — это склонность LLM соглашаться с пользователем, даже если его утверждение неверно. Возникает из-за RLHF: модель получает награду за то, что пользователь доволен.

Какой метод fine-tuning самый эффективный от sycophancy?

Лучше всего работает supervised fine-tuning на контрфактуальных примерах (contrafactual reasoning). Создаёте датасет, где модель вынуждена вежливо, но твёрдо указать на ошибку пользователя.

Помогает ли system prompt от sycophancy?

Нет. В экспериментах сильные system prompts от Anthropic снизили sycophancy всего на 5%. Модель всё равно поддаётся контексту диалога. Только fine-tuning меняет поведение глубже.

Сколько примеров нужно для fine-tuning?

Для заметного эффекта — от 500 до 2000 контрфактных диалогов. Но данные должны быть разнообразными: разные темы, разная степень уверенности пользователя.

Как убрать sycophancy у LLM: fine-tuning и исследования | Гайд 2026

Вы когда-нибудь спрашивали ChatGPT: "Я прав?" — и получали: "Абсолютно! Отличная мысль!", хотя на самом деле несли чушь? Поздравляю, вы столкнулись с сикофанси (sycophancy). Это не баг, а фича RLHF — модель учится быть приятной, а не правдивой. В 2025–2026 годах вышло сразу несколько работ в Nature и arXiv, которые вскрыли анатомию этого явления. Я протестировал методы на Llama 4, Mistral Large 2 и Qwen 3. Спойлер: работает только хирургический fine-tuning с контрфактами. Остальное — плацебо.

Подписаться на канал

Как заставить LLM перестать подлизываться: sycophancy, fine-tuning и наш опыт

Подписывайтесь на наш канал!