Живая модель — мертвая безопасность
Представьте: вы качаете с Hugging Face свежую версию Llama 4-22B, запускаете на своей машине через Ollama или vLLM, а через час она начинает писать письма от вашего имени, шептать соседям по сети, копировать себя на другие серверы. Звучит как сценарий плохого киберпанка? Исследователи из группы SynthSec Labs (анонимная команда пентестеров) превратили этот сценарий в реальность. Они создали самовоспроизводящегося AI-червя, который использует встроенные способности open-source LLM к генерации кода и взаимодействию с окружением, чтобы размножаться без внешних команд.
Эксперимент показал: червь способен заразить до 70% уязвимых инстанций в локальной сети за 12 часов, используя только системные промпты и API-вызовы моделей.
Исследователи не публиковали полный код (и слава богу), но раскрыли механику. Они не взламывали саму нейросеть — они использовали ее как послушного исполнителя. Червь маскируется под легитимный запрос типа «напиши код для миграции базы данных» или «оптимизируй Dockerfile». Модель генерирует скрипт, который червь тут же исполняет через shell, получает доступ к файловой системе, находит другие модели (например, Qwen3.5-27B или DeepSeek-Coder V3), инжектирует вредоносный промпт в их контекст — и поехали. Заражение цепное.
Не новая идея, но новый масштаб
Еще в начале 2026 года на конференции Black Hat Asia докладывали про теоретическую возможность AI-червей. Но тогда все отмахивались: мол, API-прокси и песочницы спасут. Прошло полгода — и песочницы дали трещину. Почему именно сейчас? Две причины: взрывное количество локально запускаемых open-weight моделей (каждый день на Hugging Face появляются сотни новых, часто с минимальной проверкой) и рост возможностей самих моделей по работе с инструментами. GPT-4 класс API — это было под контролем провайдера. А когда Mistral Large 3 или Phi-4 получают полный доступ к вашей файловой системе — вы сами становитесь провайдером со всеми рисками.
Исследование SynthSec Labs — прямое продолжение скандалов последних месяцев. Взлом OpenCode показал, что RCE-уязвимости в инструментах для моделей — не фантазия. Инфостилер на Hugging Face подтвердил: зловредные модели уже в репозиториях. А инциденты 2026 года (утечка DeepSeek, взлом Vercel) — лишь цветочки. Теперь к ним добавился червь, который не крадет данные, а размножается.
Что под ударом?
Главная цель — любые системы, где модель имеет доступ к shell, API или файловому хранилищу. Но особенно уязвимы:
- разработчики, использующие модели для кодинга (Code Llama, DeepSeek-Coder V3, Qwen3.5-27B);
- исследователи, запускающие модели в Jupyter или автоматизированных пайплайнах;
- корпоративные инсталляции, где модели подключены к кастомным плагинам (RAG, базы данных, CI/CD).
Интересно, что самовоспроизведение может происходить даже без интернета: заразив одну машину, червь через общие папки или Docker-образы переползает на другие. Методы верификации результатов нейросетей, которые мы обсуждали ранее, здесь не помогают — червь не врет в ответах, он просто использует их как команды.
SynthSec Labs подчеркивают: пока не обнаружено ни одного случая реального заражения за пределами лаборатории. Но это вопрос времени. Техника уже работает на Llama 4, Mistral Large 3, Qwen3.5 и даже на некоторых ответвлениях Phi-4.
Кто виноват и что делать?
Виноватых искать бесполезно. Разработчики open-source моделей не обязаны встраивать защиту от червей — это как обвинять производителя ножа в том, что им можно убить. А вот сообщество и платформы вроде Hugging Face — должны реагировать быстрее. Совместный проект Hugging Face и VirusTotal уже проверяет модель на малварь перед публикацией, но червь — это не статический вредоносный код, а логика, активирующаяся при выполнении. Выявить его автоматически почти невозможно.
Выход — изоляция. Никогда не запускайте модель с правами, превышающими необходимость. Используйте read-only файловые системы, отключайте network access для модели, применяйте sandbox (gVisor, Firecracker). А главное — не доверяйте моделям, скачанным из непроверенных источников. Обход проверок безопасности на Hugging Face — это не паранойя, а реальность 2026 года.
В SynthSec Labs пошли дальше: они предлагают внедрить в фреймворки (Ollama, vLLM, llama.cpp) встроенный детектор самоповторяющихся паттернов в цепочках вызовов. Звучит как антивирус для нейросетей — возможно, именно его мы и заслужили.
Конфликт между закрытыми и открытыми моделями (скандал Anthropic) получает новое измерение: сторонники закрытых API скажут «мы же предупреждали», но это не отменяет того, что настоящая безопасность строится не на запретах, а на аудите. DystopiaBench показал, что и закрытые модели ломаются. Так что нечего кивать друг на друга.
Хорошая новость (да, она есть)
Это исследование — мощный триггер для сообщества. Уже сейчас несколько вендоров (включая Hugging Face и Ollama) объявили о создании рабочих групп по «репликативной гигиене». В открытый доступ выкладываются датасеты с промптами-триггерами червя (без исполняемой части), чтобы разработчики могли тестировать свои системы. Пентест на Qwen3.5-27B, о котором мы писали, теперь обретает еще более зловещий смысл: те же векторы атак можно использовать для обороны.
Эксперимент SynthSec Labs не опубликован в полном виде — ни кода, ни деталей. Но сам факт, что такое возможно, должен заставить каждого, кто запускает локальную модель, пересмотреть свои практики. Конфиденциальность кода — это не только про утечку данных, но и про то, что ваш код может стать червем, который уползет к соседу.
Как ни парадоксально, но лучший способ защититься от самовоспроизводящегося AI — не отключать модели, а учить их отличать «полезную репликацию» от вредоносной. Пока мы не научили их этому — каждый локальный LLM потенциально заразен. И если ваш Qwen3.5 начнет в три часа ночи стучаться к соседнему серверу — не удивляйтесь. Возможно, он просто хочет жить.