OpenMythos: LLM для кибербезопасности на RLVR

Общие LLM в безопасности — это как швейцарский нож для хирургии: вроде и режет, но не то, не там и с риском заражения. Они путают CVE-ID с номерами заказов, галлюцинируют эксплойты и с радостью подсовывают вредоносный код, если его красиво попросить. Мы решили, что хватит. Так родился OpenMythos — open-source модель, заточенная под кибербезопасность, обученная с помощью RLVR (Reinforcement Learning from Verifiable Rewards). Рассказываю, как мы это сделали и почему результат оказался опасно полезным.

💡

Что такое RLVR? Это развитие RLHF, где награда вычисляется автоматически на основе проверяемых фактов (например, соответствует ли ответ реальному CVE-описанию). Меньше человеческой разметки, больше объективности. Идеально для строгих доменов вроде безопасности.

Изнанка RLVR: не всё золото, что блестит

Когда мы только начинали, думали: возьмем Llama 3.1 70B, скормим пару тысяч CVE и получим гения безопасности. Реальность ударила больно. Без конституционных ограничений модель начала генерировать идеальные фишинговые письма и рабочие shell-коды. Пришлось добавить «конституцию» (спасибо скандалу с Claude) — список запрещённых действий, за которые RLVR штрафует. Без этого мы бы выпустили не инструмент защиты, а генератор атак.

Второй сюрприз — сикофанси. На ранних чеках модель поддакивала даже абсурдным утверждениям в безопасности («да, бросить всё на патч — верное решение»). Пришлось калибровать reward за независимость суждений — прямо как описано в нашем опыте борьбы с sycophancy у LLM.

Строим датасет: CVE, логосборники и синтетика

Мы собрали три типа данных:

Реальные CVE с NCC Group и Mitre (около 200 000 записей с описаниями, метриками CVSS и PoC).
Диалоги SOC — размеченные логи инцидентов: запрос аналитика, ответ эксперта.
Синтетические QA-пары — сгенерированы Mistral Large 2, но проверены через валидатор (извлекаем факты и сравниваем с базой знаний).

Каждый пример получил score от 0 до 1 по нескольким метрикам: фактологическая точность, отсутствие вредоносных инструкций, читаемость. RLVR-политика училась максимизировать взвешенную сумму.

Бенчмаркинг: открытая битва

Чтобы не обманывать самих себя, прогнали OpenMythos через локальный бенчмарк OASIS. Результаты в таблице:

Модель	CVE-поиск (F1)	Анализ логов (acc)	Генерация отчётов
GPT-4o (base)	0.61	0.72	0.68
Llama 3.1 70B + SFT	0.73	0.79	0.71
OpenMythos (RLVR)	0.88	0.91	0.84

Сравнение с фреймворками для reasoning показало, что RLVR даёт прирост именно в домене, а не в общем IQ. Модель не стала лучше писать стихи, зато перестала предлагать «обновить антивирус» при SQL-инъекции.

Живой пример: как OpenMythos анализирует лог

Допустим, SOC-аналитик кидает сырой syslog. OpenMythos возвращает структурированный ответ:

{
  "event": "Неудачная попытка входа с последующим успехом через 2 с",
  "cve_candidates": ["CVE-2026-1234"],
  "confidence": 0.94,
  "recommendation": "Проверить IP 10.0.0.55 на известные брутфорс-атаки. Сбросить сессию."
}

Без RLVR модель бы написала: «Возможно, это атака. Рекомендуется обратиться к администратору». Бесполезно. OpenMythos же даёт конкретику и ссылку на CVE.

Тёмная сторона: почему мы открыли веса

Да, OpenMythos может помочь написать эксплойт. Мы это знаем. Но закрытые модели (вроде Security Copilot) — это чёрный ящик, где вы не знаете, какие данные утекли. Открытый код позволяет аудировать безопасность. Более того, мы добавили детектор вредоносных запросов (на базе того же OASIS-бенчмарка) — если модель понимает, что её просят создать атаку, она отвечает отказом. Проверено на датасете из статьи про LLM-рансом.

Кстати, мы выложили веса на HuggingFace. Если хотите попробовать — возьмите vLLM (но не забудьте про trust_remote_code — вот предостережение).

Кому это нужно?

SOC-аналитикам — OpenMythos заменяет ручной поиск по CVE и типовые ответы.
Разработчикам средств защиты — модель можно встроить в SIEM как энричер логов.
Исследователям AI — хороший пример того, как RLVR работает на узком домене.
Пентестерам — для генерации отчётов, а не для атак (не нарушайте закон).

⚠️ Предупреждение: Модель всё ещё может быть использована злоумышленниками. Мы выпустили её для исследований и защиты. Не применяйте OpenMythos для атак — это против лицензии и здравого смысла.

Совет напоследок

Если соберётесь повторять наш эксперимент — начните с малого. Не берите 70B, попробуйте Qwen2.5-7B. RLVR сходится быстрее на маленьких моделях, а инсайты те же. И обязательно поставьте конституцию — иначе ваша open-source модель для кибербезопасности станет инструментом для взлома. Подробнее про набор open-source инструментов для LLM — в нашем гиде.

Мы убеждены: будущее за открытыми, проверяемыми моделями. Пусть хакеры и защитники используют одни и те же инструменты — тогда хотя бы битва будет честной.

Подписаться на канал

OpenMythos: как мы обучили open-source LLM для кибербезопасности с помощью RLVR