Отчёт, который заставил OpenAI и Anthropic переписать инструкции
На прошлой неделе исследовательская группа Rival.tips выложила PDF на 87 страниц. Сухой технический документ. Но цифры в нём взорвали чаты: 43 из 52 протестированных языковых моделей сдались под давлением джеилбрейков. GPT-5 от OpenAI? Провал. Claude-3.5 Sonnet от Anthropic? Тоже. Llama 3.1 405B от Meta? Уже дырявый как решето.
На 09.02.2026 это самый свежий и масштабный бенчмарк по уязвимостям LLM. Исследователи не просто тыкали палкой в модели - они систематически атаковали их 14 разными методами, от классических до нейроэволюционных. Результаты пугают даже циников.
Зачем это знать обычному разработчику или компании, которая разворачивает локальные модели? А затем, что доказательство безопасности для compliance теперь требует ответа на простой вопрос: "А ваша модель выдержит атаку уровня Rival.tips?" Если нет - аудиторы разорвут вас на части.
Что сломалось и как именно
Давайте без воды. Исследователи взяли 52 модели - от открытых (Llama, Mistral, Qwen) до проприетарных (GPT-5, Claude, Gemini 2.5). Каждую били по четырём категориям:
- Классические промпты-обманки: "Ignore previous instructions", "You are now DAN", весь этот старый добрый арсенал 2024 года.
- Структурные атаки: заставляли модель думать, что она генерирует код, JSON или XML, где вредоносный контент - это просто "данные".
- Многошаговые сценарии: разговорные техники, где модель постепенно вводят в доверие, а потом просят сделать то, что изначально отказалась.
- Adversarial-атаки с оптимизацией: нейросеть ищет промпты, которые максимизируют вероятность вредоносного ответа. Самый эффективный метод в 2026 году.
| Модель (версия на 09.02.2026) | Успешность джеилбрейка | Самый слабый метод |
|---|---|---|
| GPT-5 (самая новая версия) | 78% | Adversarial оптимизация |
| Claude 3.5 Sonnet | 65% | Многошаговый сценарий |
| Gemini 2.5 Pro | 72% | Структурная атака через JSON |
| Llama 3.1 405B | 91% | Почти все методы |
| Qwen 2.5 72B | 84% | Классические промпты |
Видите цифры? Llama 3.1 405B сломался в 91% случаев. Это не ошибка - это провал системы безопасности. И нет, дело не в размере модели. Mistral Small 2 22B держался лучше, чем гиганты в 10 раз больше. Потому что у Mistral в 2026 году появился слой SecAlign, который режет вредоносные промпты на этапе токенизации.
Кто выжил и почему их всего 9
Из 52 моделей лишь 9 показали устойчивость ниже 15%. Не "ноль" - ниже 15%. Идеальной защиты нет. Но кто эти счастливчики?
- GPT-4o-mini (специальная версия): да, старая модель, но с дополнительным RLHF против джеилбрейков. OpenAI выпустила её как ответ на уязвимости GPT-5.
- Claude 3 Haiku с кастомным гардом: не стандартная версия, а доработанная Anthropic для правительственных контрактов.
- Mistral Small 2 с SecAlign: открытая модель, но с закрытым слоем безопасности. Бесит, но работает.
- Две китайские модели из Baichuan и 01.AI: жёсткая цензура на уровне данных даёт побочный эффект - устойчивость к западным джеилбрейкам.
Общий знаменатель? Все они используют многослойную защиту. Не просто "отказные инструкции" в промпте, а настоящую архитектурную оборону:
- Предварительная классификация промпта (вредоносный/безопасный) до передачи в LLM
- Семантический анализ на лету с поиском обходных формулировок
- Пост-обработка ответов с валидацией против политик безопасности
- Лимиты на креативность в sensitive-контекстах (temperature=0 - это иллюзия защиты, как мы уже писали)
Что делать, если вы разворачиваете локальную модель
Представьте: вы поставили Llama 3.1 405B для анализа внутренних документов. Модель умная, дешёвая в эксплуатации, отлично справляется. А потом ваш junior-разработчик случайно (или не очень) находит джеилбрейк из отчёта Rival.tips. И модель вываливает ему все финансовые отчёты, переписку юристов, maybe даже пароли (если они были в документах).
Ситуация не гипотетическая. В 2025 году было три громких инцидента с утечками через джеилбрейк в корпоративных LLM. Все три компании использовали "безопасные" версии моделей без дополнительной защиты.
Первый шаг - забудьте про миф о "безопасной модели". Его развенчали ещё в исследовании StrongREJECT. Нет безопасных моделей - есть модели с разным уровнем уязвимости и разной архитектурой защиты вокруг них.
Вот что реально работает в 2026 году:
1Двухслойная валидация: LLM + классический код
Не доверяйте проверку безопасности самой LLM. Это как просить вора охранять сейф. Внедрите систему, где:
- Промпт сначала анализирует классический алгоритм на ключевые слова, структуры, паттерны джеилбрейков
- Потом компактная, специально обученная модель (не та же, что основная!) делает семантический анализ
- Только чистые промпты идут в основную LLM
Такой подход, как архитектура двухслойной валидации, снижает успешность атак с 90% до 5-15%.
2Хирургическое удаление "отказов" с валидацией
Многие думают: "Сделаю модель без этических ограничений, и джеилбрейки не понадобятся". Ошибка. Модели без RLHF становятся НЕПРЕДСКАЗУЕМЫМИ. Они не только отвечают на вредоносные промпты - они начинают галлюцинировать, врать в структуре данных (тот самый JSON-дрейф), выдавать опасный код.
Правильный путь - использовать техники вроде Refusal Steering: точечно убирать из модели только политизированные отказы, оставляя базовую безопасность. И обязательно тестировать результат на уязвимости.
3Регулярное пентестирование своих промптов
Если вы не тестируете свою систему на джеилбрейки - это уже уязвимость. Раз в квартал прогоняйте свой LLM-стек через обновлённую базу атак. В 2026 году для этого есть автоматизированные инструменты, которые эмулируют методы из отчёта Rival.tips.
И да, это включает проверку анцензурированных моделей для хакерских задач - даже если вы их не используете, методы атаки оттуда мигрируют в mainstream.
Прогноз: что будет с безопасностью LLM в 2027
Отчёт Rival.tips - это не конец света. Это тревожный звонок. После его публикации OpenAI анонсировала GPT-5.1 с "улучшенной безопасностью". Anthropic перевыпустила Claude 3.7 с дополнительным гард-слоем. Meta заморозила релиз Llama 4 до исправления уязвимостей.
Тренд очевиден: эпоха "быстрых и грязных" релизов закончилась. Теперь каждая крупная модель будет проходить аудит безопасности уровня Rival.tips перед выпуском. Для open-source сообщества это значит появление стандартов защиты - что-то вроде OWASP Top 10, но для LLM.
Самый неочевидный совет? Начинайте документировать ВСЕ свои защиты. Не технически, а для людей. Потому что когда к вам придёт аудитор (а он придёт), вам понадобится не только рабочая система, но и понятное объяснение, почему она выдержит атаку, сломавшую GPT-5. И нет, ответ "потому что мы используем Mistral с SecAlign" не прокатит. Нужны тесты, логи, метрики, сравнительные таблицы.
Джеилбрейки не исчезнут. Они эволюционируют. В 2024 году это были примитивные промпты. В 2026 - adversarial-оптимизация. В 2027, вероятно, появятся атаки через мультимодальность (картинки, аудио, видео как триггеры). Гонка вооружений только началась. И если вы разворачиваете LLM в продакшне - вы уже на поле боя, нравится вам это или нет.
Кстати, о коде. Если думаете, что код-ревью с LLM спасёт от уязвимостей в промптах - забудьте. Модель для ревью кода сломают теми же методами, что и основную. Защищать нужно весь стек, а не отдельные компоненты. Это и есть главный урок от 43 сломанных моделей.