VulnBERT: 92% багов в Linux находит ИИ. Почему это меняет безопасность в 2026 | AiManual
AiManual Logo Ai / Manual.
15 Фев 2026 Новости

VulnBERT: как модель находит 92% багов в ядре Linux и почему это важно для безопасности ИИ-систем

VulnBERT обнаруживает 92.2% уязвимостей в ядре Linux с 1.2% ложных срабатываний. Как модель работает и почему это критично для безопасности ИИ-инфраструктуры в

Код на 27 миллионов строк, баги на 15 лет вперед

Ядро Linux сегодня - это примерно 27 миллионов строк кода на C. Каждые два месяца выходит новая версия с тысячами изменений. Человеческий глаз не успевает. Традиционные инструменты статического анализа вроде Coverity или Clang Static Analyzer находят где-то 30-40% проблем. Остальное живет годами.

Пока мы обсуждаем джейлбрейки для GPT-5 и adversarial-атаки на Gemini, фундамент наших ИИ-систем гниет изнутри. Большинство ML-инфраструктуры работает на Linux. Docker, Kubernetes, облачные инстансы - все это сидит на ядре. Найди там уязвимость нулевого дня - и получишь доступ ко всем моделям, данным, весам.

Средний срок жизни критической уязвимости в ядре Linux до обнаружения - 15 лет. Не дней, не месяцев. Лет. Представьте, что с 2011 года в вашей системе есть дыра, через которую можно получить root-доступ. И вы об этом не знаете.

VulnBERT против CodeBERT: почему специализация бьет универсальность

Исследователи из Университета Карнеги-Меллона не стали изобретать велосипед. Они взяли CodeBERT - модель от Microsoft, обученную на 6.4 миллионах функций из open-source проектов. И дообучили ее на специфичных данных.

Разница в подходе простая, но критичная:

Модель Обучение Recall (полнота) False Positive
CodeBERT (базовая) Общий код на Python, Java, Go 47.3% 8.7%
VulnBERT v2.1 (2026) 15k функций ядра Linux с багами + синтетика 92.2% 1.2%

92.2% полноты при 1.2% ложных срабатываний. Цифры, которые заставляют пересмотреть отношение к ИИ-инструментам в безопасности. Особенно если помнить, что 90% jailbreak-исследований - научный мусор по сравнению с этой работой.

💡
VulnBERT v2.1 использует архитектуру CodeBERT с 125 миллионами параметров, но тренировалась исключительно на коде ядра Linux версий 2.6.32-6.10. Ключевое улучшение 2025 года - добавление синтетических примеров через контролируемое внедрение багов, что увеличило recall на 15%.

Как VulnBERT видит то, что не видим мы

Модель не ищет конкретные паттерны вроде "strcpy без проверки длины". Она учится понимать контекст. Разницу между безопасным и опасным использованием одного и того же API.

Пример из реального кода ядра (анонимизированный):

Человек видит: "О, тут copy_from_user в цикле. Ну, цикл же, все нормально".

VulnBERT видит: "copy_from_user в цикле с проверкой размера через min(). Но min() использует непроверенное значение из пользовательского пространства. Цикл может выполниться больше раз, чем выделено буфера".

Это уровень понимания, который раньше был только у senior-разработчиков с 10-летним опытом работы с ядром. Теперь это делает модель за 50 миллисекунд.

Почему это важно для ИИ-систем в 2026

Давайте соединим точки. У вас есть:

  • ML-инфраструктура на Kubernetes (работает на Linux)
  • Модели на Hugging Face или локально (файлы лежат в FS)
  • Данные для обучения (тоже где-то на дисках)
  • API для инференса (слушает порты)

Теперь найдите уязвимость в подсистеме сетевого стека ядра. Или в драйвере GPU. Или в virtual filesystem. Получаете удаленное выполнение кода на ноде, где крутятся ваши модели. Все. ИИ-рансом атака становится тривиальной задачей.

Особенно страшно, когда уязвимости живут в коде, который написан 10-15 лет назад. Его уже никто не помнит. Его авторы ушли из проекта. Но он все еще выполняется на каждом сервере с вашей ИИ-инфраструктурой.

VulnBERT v2.1 в тестах нашел 14 ранее неизвестных уязвимостей в коде, который прошел через 5 разных статических анализаторов и code review десятков разработчиков. Все они были подтверждены и получили CVE в 2025-2026 годах.

Интеграция в пайплайны: не замена, а усиление

Авторы VulnBERT не предлагают заменить code review. Они предлагают инструмент, который работает на стадии pre-commit и CI/CD.

Как это выглядит на практике:

  1. Разработчик делает коммит в ядро Linux
  2. CI запускает VulnBERT на измененных файлах
  3. Если модель находит потенциальную проблему - она помечает конкретную строку с объяснением
  4. Человек смотрит, правда ли это баг (в 98.8% случаев - правда)
  5. Исправляет до мержа в mainline

Для ИИ-компаний в 2026 году это должно стать стандартом. Вы проверяете не только свои модели на вредоносный код, но и инфраструктуру, на которой они работают. Потому что prompt-инъекции - только верхушка айсберга.

Ограничения и где модель все еще проигрывает

VulnBERT не идеальна. Она специализирована на ядро Linux. Перенести ее на Windows kernel или firmware IoT-устройств - отдельная задача. Модель требует ретренинга.

Ложные срабатывания в 1.2% - это все еще тысячи предупреждений на весь код ядра. Нужна фильтрация, приоритизация.

И главное: модель находит implementation bugs, но не design flaws. Если архитектура системы изначально небезопасна - VulnBERT этого не увидит. (Хотя, честно говоря, и люди часто не видят).

Что делать прямо сейчас, если вы работаете с ИИ в 2026

Первое - перестать думать, что безопасность ИИ-систем это только про prompt engineering и RLHF. Это как защищать банк, ставя хороший замок на дверь, но оставляя окна на первом этаже открытыми.

Второе - посмотреть на свою инфраструктуру. На каких версиях ядра работают ваши инференс-сервера? Когда последний раз обновляли? Какие CVE там могут быть?

Третье - начать использовать инструменты вроде VulnBERT в CI/CD. Модель доступна на GitHub, есть контейнеры Docker. Интеграция с GitLab CI и GitHub Actions занимает пару часов.

Четвертое (и самое важное) - понять, что в 2026 году атаки на ИИ-системы идут не только через API вашей модели. Они идут через ОС, через контейнеры, через системные вызовы. И защищаться нужно на всех уровнях.

VulnBERT показывает: ИИ может не только создавать уязвимости (как в случае с автономными ransomware-атаками), но и находить их. Причем находить так эффективно, что ставит под вопрос всю текущую практику code review в security-critical проектах.

Следующие 2-3 года подобные инструменты станут обязательными для любой компании, работающей с ИИ. Потому что цена одного эксплойта в ядре - это не просто падение сервера. Это доступ ко всем вашим моделям, данным, ноу-хау. И восстановление после такого - не перезагрузка контейнера. Это полная пересборка доверия.

Код VulnBERT открыт. Датасеты - открыты. Модель работает. Осталось только интегрировать ее в свои процессы. Пока это не сделали конкуренты.