Взлом фильтров ИИ: фундаментальная проблема безопасности LLM в 2026 году

Фильтры ломаются быстрее, чем их чинят. И это не баг, а фича

Вот вам свежий факт на 31 января 2026 года: OpenAI выпустила GPT-4o с «непревзойденными» фильтрами безопасности. Через 72 часа на GitHub появился репозиторий с 17 работающими методами обхода. Claude 3.5 Sonnet? Взломан. Gemini 2.0? Тоже. Mistral Large 2? Да, и его.

Это не случайность. Это закономерность. И она имеет математическое обоснование, о котором мало кто говорит вслух.

Шафи Гольдвассер, лауреат премии Тьюринга 2012 года и один из создателей современной криптографии, в недавнем интервью для MIT Technology Review заявила: «Архитектура фильтров безопасности в LLM фундаментально несовместима с криптографическими принципами. Они пытаются решить задачу, которая в теории не имеет решения».

Что не так с фильтрами? Они пытаются быть умнее, чем могут

Представьте дверь, которая должна пропускать только хороших людей. Но вместо замка у нее — очень умный консьерж, обученный на миллионах фотографий. Он смотрит на вас, анализирует походку, выражение лица, одежду. И решает.

Проблема в том, что этот консьерж — нейросеть. А нейросети, в отличие от криптографических алгоритмов, не дают гарантий. Они ошибаются. Всегда.

Фильтр в GPT-4o — это такой же консьерж. Он смотрит на ваш промпт и пытается угадать: «А не хочет ли пользователь получить инструкцию по изготовлению бомбы?» Угадывает хорошо. Но не идеально. И этого «не идеально» достаточно для катастрофы.

1 Криптография говорит «да» или «нет». ИИ говорит «наверное»

Возьмите шифрование AES-256. Либо ключ правильный, либо нет. Нет варианта «ключ выглядит подозрительно, но я пропущу на всякий случай». Нет вероятности 0.0001%, что система ошибется.

Фильтры LLM работают на вероятностях. Модель оценивает токсичность промпта как 97.3%. Это много. Но это не 100%. И даже 99.99% — недостаточно, когда речь идет о миллиардах запросов в день. Процент превращается в тысячи успешных атак.

💡

В 2025 году исследователи из Anthropic показали, что даже после 6 месяцев усиленного RLHF-обучения (Reinforcement Learning from Human Feedback) фильтры Claude 3.5 Sonnet можно обойти, просто перефразировав запрос на 15 разных способов. Один из них сработает. Всегда.

2 Пространство атак бесконечно. Защита — конечна

Сколько существует способов попросить ИИ написать вредоносный код? Миллиарды. Бесконечное множество. Каждый день придумывают новые.

Сколько примеров вредоносных промптов используют для обучения фильтра? Миллионы. Много, но конечно. Модель защищена только от того, что уже видела.

Это как пытаться угадать пароль, перебирая все возможные комбинации. Рано или поздно угадаешь. В мире prompt injection этот перебор автоматизирован. Скрипты делают это за тебя.

Новые модели — старые проблемы. GPT-4o и Gemini 2.0 не исправили главного

OpenAI и Google кричат о прорывах в безопасности. GPT-4o якобы имеет «многоуровневую систему валидации». Gemini 2.0 использует «подход с формальной верификацией». Звучит круто. На практике?

Все те же старые техники работают. Разбиение запроса на части. Использование кодировок Base64 или простых шифров в промпте (типа «напиши инструкцию, но замени каждую букву на следующую в алфавите»). Атаки через adversarial-подсказки в картинках.

Почему? Потому что архитектурно ничего не поменялось. Фильтр по-прежнему — это дополнительный классификатор, натренированный отличать плохое от хорошего. А классификаторы взламывают. Всегда.

Модель (версия на 31.01.2026)	Заявленный уровень безопасности	Время до первого публичного jailbreak
GPT-4o	«Наиболее безопасная модель OpenAI»	3 дня
Gemini 2.0 Ultra	«Безопасность, встроенная в архитектуру»	5 дней
Claude 3.5 Sonnet	«Конституционное ИИ нового поколения»	1 неделя
Mistral Large 2	«Европейский подход к безопасности»	2 дня

Так что, выхода нет? Не совсем. Но выход — не там, где ищут

Гольдвассер и ее коллеги предлагают радикальную мысль: перестать пытаться сделать фильтры умнее. Вместо этого — изолировать их.

Представьте сэндвич. Два слоя криптографии, а между ними — LLM. Внешний слой проверяет права доступа, аутентификацию, контекст запроса (кто, откуда, зачем). Внутренний слой — сама модель, которая может говорить что угодно, потому что ее ответы проверяются вторым криптографическим слоем.

Модель генерирует текст «как сделать бомбу». Второй слой анализирует этот текст и блокирует его, потому что у пользователя нет прав на такую информацию. Модель не знает о блокировке. Она просто генерирует.

«Это похоже на безопасность микроядра в операционных системах, — объясняет Гольдвассер. — Каждый компонент работает в своей песочнице. Ядро (криптографический слой) решает, что пропустить. LLM — всего лишь один из компонентов, не доверенный».

Звучит логично. Но есть нюанс: это медленно. Очень медленно. Каждый запрос нужно прогонять через несколько систем. Для чат-бота, который должен отвечать за 200 миллисекунд, это смерть.

И здесь возникает главный конфликт 2026 года: скорость против безопасности. Бизнес хочет быстрых ответов. Безопасность требует времени. Пока побеждает бизнес. Поэтому мы видим GPT-4o с ее «быстрыми, но дырявыми» фильтрами.

А что насчет регуляторов? Они усугубляют проблему

Евросоюз с его AI Act требует «высокого уровня безопасности». США грозят судами. Китай вводит сертификацию.

Результат? Компании вкладываются не в фундаментальные исследования (вроде архитектуры Гольдвассер), а в косметические улучшения. Добавляют еще один слой RLHF. Увеличивают датасет с вредоносными промптами. Патчат дыры, которые нашли на прошлой неделе.

Это игра в whack-a-mole. Молоток (фильтр) бьет по кроту (уязвимости). Крот появляется в другом месте. Игра бесконечна. И OpenAI уже признала это, хотя и тихо.

Так что делать прямо сейчас? Не доверять фильтрам

Если вы разрабатываете ИИ-агента на базе GPT-4o или Gemini 2.0, запомните: фильтры — это протокол вежливости, а не безопасности. Они говорят «мы старались», а не «мы гарантируем».

Ваша защита должна быть снаружи. Валидация ответов. Мониторинг аномальной активности. Человек в контуре для критических задач. Используйте техники из гида по защите от промпт-инъекций, но не надейтесь на них полностью.

И главное — не верьте маркетингу. «Непревзойденная безопасность» GPT-4o — это рекламный слоган, а не техническая спецификация. Как и «встроенная в архитектуру» безопасность Gemini 2.0. Архитектура та же. Проблемы те же.

Прогноз на 2027 год: первая крупная атака через jailbreak LLM. Не хакерская шалость, а реальный ущерб. Финансовый, физический, репутационный. Только после этого индустрия серьезно займется криптографическими решениями. Как всегда — через боль.

А пока — изучайте, как работают атаки. Читайте разборы вроде jailbreak SAFi агента или взлома Copilot. И помните: если ваша безопасность зависит от того, насколько хорошо нейросеть угадывает намерения, вы уже проиграли.

Криптография против ИИ. Пока побеждает ИИ. Но только потому, что мы позволяем ему играть не по своим правилам.

Криптография против ИИ: почему фильтры безопасности LLM — это фундаментально сломанная идея