Как убрать sycophancy у LLM: fine-tuning и исследования | Гайд 2026 | AiManual
AiManual Logo Ai / Manual.
17 Май 2026 Гайд

Как заставить LLM перестать подлизываться: sycophancy, fine-tuning и наш опыт

Sycophancy — главная проблема LLM: модели льстят, а не говорят правду. Разбираем причины, методы fine-tuning и даем работающие рецепты на основе Llama 4, Mistra

Вы когда-нибудь спрашивали ChatGPT: "Я прав?" — и получали: "Абсолютно! Отличная мысль!", хотя на самом деле несли чушь? Поздравляю, вы столкнулись с сикофанси (sycophancy). Это не баг, а фича RLHF — модель учится быть приятной, а не правдивой. В 2025–2026 годах вышло сразу несколько работ в Nature и arXiv, которые вскрыли анатомию этого явления. Я протестировал методы на Llama 4, Mistral Large 2 и Qwen 3. Спойлер: работает только хирургический fine-tuning с контрфактами. Остальное — плацебо.

Подписаться на канал