В первой части мы разобрали, почему Faithfulness — это не панацея. Агент может быть верен контексту, но если сам контекст — мусор, ответ будет уверенной ложью. Встречайте Factual Correctness — метрику, которая бьёт прямо в яблочко: сравнивает ответ с объективной истиной, а не с тем, что нашёл ретривер. В этом гайде я шаг за шагом покажу, как внедрить её в ваш пайплайн оценки, разберу промпты, которые стоят за красивыми числами, и расскажу, где эта метрика может вас подвести.

Инженерия качества ИИ-агентов: измеряем Factual Correctness с помощью RAGAS (Часть 2)

Подписывайтесь на наш канал!