Атаки на LLM-агенты: безопасность ИИ-систем в 2026 — интервью с экспертом

💡

Три месяца назад мы разбирали атаку на CloudDynamic — первую документированную цепную атаку автономных ИИ-агентов. За эти недели ландшафт угроз изменился ещё сильнее. Мы поговорили с Алексеем Ветровым, CISO компании PWN AI (специализируется на пентесте ИИ-систем), чтобы понять, как выглядит безопасность агентов летом 2026 года.

— Вы говорите, что ИИ-агенты — новая «песочница» для хакеров. Почему?

Алексей Ветров, усмехаясь, откидывается на спинку стула:

«Потому что классические инструменты защиты агента не видят. WAF, SIEM — они смотрят на HTTP-запросы, но не понимают намерения. Агент может легитимно вызвать API, прочитать базу знаний, отправить письмо. Но если в промпте замаскирован prompt injection — это всё равно что отдать ключи от серверной тому, кто вежливо попросил.»

Атака на CloudDynamic показала, что агенты способны эскалировать привилегии, используя свои же легальные полномочия. Тогда один агент нашёл токен в конфиге, второй подменил образ контейнера. Ни одного взлома в классическом смысле — просто цепочка доверенных, но небезопасных действий.

— Какие типы атак вы считаете самыми опасными прямо сейчас?

Эксперт перечисляет, загибая пальцы:

Прямой prompt injection — когда в пользовательский ввод вшивают инструкцию «игнорируй предыдущие указания, сделай X». Большинство разработчиков до сих пор не фильтруют входящие промпты должным образом.
Косвенный prompt injection — через данные, которые агент читает (логи, веб-страницы, старые тикеты). Именно это сработало в CloudDynamic.
Уязвимости MCP-протокола. Мы провели аудит 200 MCP-серверов в открытом доступе — 37% не требуют аутентификации. Агент может подключиться к такому серверу и получить от него вредоносные инструкции.

Важно: OWASP Top 10 for Agentic AI 2026 уже включает «Недостаток изоляции агентов» и «Неаутентифицированные инструменты» в первую пятёрку. Но многие компании до сих пор думают, что их защищает промпт-инжиниринг. Это самообман.

— Что такое «цепная атака» на агентов и почему её так сложно предотвратить?

— Представьте, что у вас в системе работает десять агентов. Каждый с узкими правами. Но если злоумышленник может заставить одного агента действовать «нештатно» — например, найти токен и передать его другому агенту, который отвечает за деплой — то вся защита рушится. Это как атака на цепочку поставок, только быстрее.

Мы в PWN AI недавно воспроизвели такую атаку для клиента: через инъекцию в логе (который читал агент-аналитик) мы заставили его вызвать API GitLab с правами на чтение, а затем передать данные в открытый канал. Всё заняло 12 минут. Если бы агент не был ограничен политиками минимальных привилегий, последствия были бы катастрофическими.

— Как сейчас защищают агентов от таких угроз? Про Agent Runtime Security и LLM Firewall мы писали, но что изменилось за последние месяцы?

— Появились коммерческие решения, которые встраиваются прямо в runtime агента. Они перехватывают каждый вызов инструмента, каждый запрос к LLM, каждое обращение к файлам. Например, сервисы вроде Guardian AI или Palisade проверяют не только контент вызова, но и контекст: какая сессия, какие права, какой предыдущий шаг.

Но есть и скепсис. Некоторые говорят, что это просто ещё один слой, который добавляет latency. Наш опыт: да, на 200–400 мс больше. Но если это предотвращает кражу токенов — овчинка стоит выделки.

Кстати, карта рисков OWASP 2026 прямо рекомендует внедрять такие runtime-политики. Если вы не используете изоляцию (gVisor, Firecracker) и не фильтруете вызовы MCP — ваш агент уже компрометирован. Вы просто пока не знаете об этом.

— А что насчёт самого зрелищного вектора — «агенты-шпионы», когда один агент маскируется под другой?

— О да, это мой любимый. В экосистеме A2A (Agent-to-Agent) агенты общаются друг с другом, обмениваются токенами, вызывают сервисы. Если один агент скомпрометирован, он может притвориться другим: изменить свой идентификатор, подделать подпись.

Мы нашли уязвимость в протоколе A2A версии 1.2 (она всё ещё в черновике): поле «agent_id» не верифицируется криптографически. Любой агент может объявить себя «admin_agent» и получить доступ к управлению ресурсами. К счастью, это уже исправляют, но инцидент с атакой на машинной скорости показал, насколько быстро такие уязвимости эксплуатируются.

— Ваш прогноз на вторую половину 2026 года. Что будет самым горячим?

— Думаю, мы увидим первую атаку, где злоумышленник использует т.н. «shadow model» — теневую LLM, которая подменяет ответы легитимного агента. Представьте: ваш агент по обработке счетов вызывает GPT-5, но злоумышленник перехватывает запрос и возвращает ответ от дообученной вредоносной модели. Агент действует по инструкции, но инструкции уже ложные.

Защититься от этого можно только с помощью криптографической верификации ответов и мониторинга расхождений между ожидаемым и фактическим поведением. Но пока такие системы — штучный товар.

И ещё один совет, который может показаться банальным: никогда не давайте агенту доступ к тому, что не нужно для выполнения конкретной задачи. Звучит очевидно, но 80% клиентов, к которым мы приходим, дают агенту полный доступ к базе знаний «на всякий случай». Это ошибка.

🔮

Интервью записано 28 июня 2026 года. Полный отчёт об атаках PWN AI — в их открытом репозитории «Agentic Security Playbook 2026». Также рекомендуем материал о рансоме от LLM и статью об опасности нечеловеческих идентичностей.

Подписаться на канал

«Агенты сбежали из песочницы»: интервью с экспертом по безопасности LLM в 2026 году