От GCG до refusal direction: градиентные атаки на LLM и почему safety-элайнмент — это иллюзия
Разбираем механику GCG и refusal direction. Почему safety-элайнмент не робастен, как градиентная оптимизация ломает защиту моделей и что с этим делать.
Читать →