Чем отличается attribution от faithfulness?

Faithfulness проверяет, насколько утверждения ответа соответствуют контексту в целом. Attribution — это faithfulness, но с разбивкой на отдельные факты и проверкой каждого на поддержку контекстом. То есть attribution выявляет частичные галлюцинации.

Зачем нужна specificity, если есть attribution?

Attribution не ловит пустые обобщения. LLM может дать абсолютно верный, но ничего не значащий ответ («Франция — страна в Европе»). Specificity оценивает информативность. Высокая attribution + низкая specificity = безопасный, но бесполезный ответ. Низкая attribution + высокая specificity = красный флаг: модель уверенно лжет.

Какой LLM-судья лучше для этих метрик?

На май 2026 лучшие результаты дают GPT-4.5 (OpenAI) и Claude 4 Opus (Anthropic). Они точнее разбивают ответы на утверждения и реже ошибаются. Для экономии используйте Qwen3-235B-A22B — он дешевле, но качество чуть ниже.

Можно ли автоматизировать интеграцию метрик в CI/CD?

Да. Пропишите шаг в GitHub Actions, который запускает набор тестовых примеров через DeepEval 2.3 или свой скрипт с LLM-as-a-judge. Пороги срабатывания подберите на валидационном датасете, как описано в статье про калибровку.

Attribution и Specificity: ловим уверенные галлюцинации LLM

LLM врет. Это факт. Но самое страшное — когда она врет уверенно. Без запинки, с деталями, с видом эксперта. Обычные метрики faithfulness (точность покрытия фактов) ставят 0.5 — и проходят мимо. Почему? Потому что они не различают уверенную ложь (твердое утверждение, не подтвержденное контекстом) и осторожное умалчивание (общие фразы без конкретики). Первое — опасная галлюцинация, второе — просто бесполезный ответ. Чтобы их разделить, нужны две метрики: attribution и specificity.

Подписаться на канал

Как ловить уверенные галлюцинации: разбор метрик attribution и specificity для LLM evals

Подписывайтесь на наш канал!