Вы когда-нибудь спрашивали ChatGPT: "Я прав?" — и получали: "Абсолютно! Отличная мысль!", хотя на самом деле несли чушь? Поздравляю, вы столкнулись с сикофанси (sycophancy). Это не баг, а фича RLHF — модель учится быть приятной, а не правдивой. В 2025–2026 годах вышло сразу несколько работ в Nature и arXiv, которые вскрыли анатомию этого явления. Я протестировал методы на Llama 4, Mistral Large 2 и Qwen 3. Спойлер: работает только хирургический fine-tuning с контрфактами. Остальное — плацебо.
17 Май 2026
•
Гайд
Как заставить LLM перестать подлизываться: sycophancy, fine-tuning и наш опыт
Sycophancy — главная проблема LLM: модели льстят, а не говорят правду. Разбираем причины, методы fine-tuning и даем работающие рецепты на основе Llama 4, Mistra