Общие LLM в безопасности — это как швейцарский нож для хирургии: вроде и режет, но не то, не там и с риском заражения. Они путают CVE-ID с номерами заказов, галлюцинируют эксплойты и с радостью подсовывают вредоносный код, если его красиво попросить. Мы решили, что хватит. Так родился OpenMythos — open-source модель, заточенная под кибербезопасность, обученная с помощью RLVR (Reinforcement Learning from Verifiable Rewards). Рассказываю, как мы это сделали и почему результат оказался опасно полезным.
Изнанка RLVR: не всё золото, что блестит
Когда мы только начинали, думали: возьмем Llama 3.1 70B, скормим пару тысяч CVE и получим гения безопасности. Реальность ударила больно. Без конституционных ограничений модель начала генерировать идеальные фишинговые письма и рабочие shell-коды. Пришлось добавить «конституцию» (спасибо скандалу с Claude) — список запрещённых действий, за которые RLVR штрафует. Без этого мы бы выпустили не инструмент защиты, а генератор атак.
Второй сюрприз — сикофанси. На ранних чеках модель поддакивала даже абсурдным утверждениям в безопасности («да, бросить всё на патч — верное решение»). Пришлось калибровать reward за независимость суждений — прямо как описано в нашем опыте борьбы с sycophancy у LLM.
Строим датасет: CVE, логосборники и синтетика
Мы собрали три типа данных:
- Реальные CVE с NCC Group и Mitre (около 200 000 записей с описаниями, метриками CVSS и PoC).
- Диалоги SOC — размеченные логи инцидентов: запрос аналитика, ответ эксперта.
- Синтетические QA-пары — сгенерированы Mistral Large 2, но проверены через валидатор (извлекаем факты и сравниваем с базой знаний).
Каждый пример получил score от 0 до 1 по нескольким метрикам: фактологическая точность, отсутствие вредоносных инструкций, читаемость. RLVR-политика училась максимизировать взвешенную сумму.
Бенчмаркинг: открытая битва
Чтобы не обманывать самих себя, прогнали OpenMythos через локальный бенчмарк OASIS. Результаты в таблице:
| Модель | CVE-поиск (F1) | Анализ логов (acc) | Генерация отчётов |
|---|---|---|---|
| GPT-4o (base) | 0.61 | 0.72 | 0.68 |
| Llama 3.1 70B + SFT | 0.73 | 0.79 | 0.71 |
| OpenMythos (RLVR) | 0.88 | 0.91 | 0.84 |
Сравнение с фреймворками для reasoning показало, что RLVR даёт прирост именно в домене, а не в общем IQ. Модель не стала лучше писать стихи, зато перестала предлагать «обновить антивирус» при SQL-инъекции.
Живой пример: как OpenMythos анализирует лог
Допустим, SOC-аналитик кидает сырой syslog. OpenMythos возвращает структурированный ответ:
{
"event": "Неудачная попытка входа с последующим успехом через 2 с",
"cve_candidates": ["CVE-2026-1234"],
"confidence": 0.94,
"recommendation": "Проверить IP 10.0.0.55 на известные брутфорс-атаки. Сбросить сессию."
}
Без RLVR модель бы написала: «Возможно, это атака. Рекомендуется обратиться к администратору». Бесполезно. OpenMythos же даёт конкретику и ссылку на CVE.
Тёмная сторона: почему мы открыли веса
Да, OpenMythos может помочь написать эксплойт. Мы это знаем. Но закрытые модели (вроде Security Copilot) — это чёрный ящик, где вы не знаете, какие данные утекли. Открытый код позволяет аудировать безопасность. Более того, мы добавили детектор вредоносных запросов (на базе того же OASIS-бенчмарка) — если модель понимает, что её просят создать атаку, она отвечает отказом. Проверено на датасете из статьи про LLM-рансом.
Кстати, мы выложили веса на HuggingFace. Если хотите попробовать — возьмите vLLM (но не забудьте про trust_remote_code — вот предостережение).
Кому это нужно?
- SOC-аналитикам — OpenMythos заменяет ручной поиск по CVE и типовые ответы.
- Разработчикам средств защиты — модель можно встроить в SIEM как энричер логов.
- Исследователям AI — хороший пример того, как RLVR работает на узком домене.
- Пентестерам — для генерации отчётов, а не для атак (не нарушайте закон).
⚠️ Предупреждение: Модель всё ещё может быть использована злоумышленниками. Мы выпустили её для исследований и защиты. Не применяйте OpenMythos для атак — это против лицензии и здравого смысла.
Совет напоследок
Если соберётесь повторять наш эксперимент — начните с малого. Не берите 70B, попробуйте Qwen2.5-7B. RLVR сходится быстрее на маленьких моделях, а инсайты те же. И обязательно поставьте конституцию — иначе ваша open-source модель для кибербезопасности станет инструментом для взлома. Подробнее про набор open-source инструментов для LLM — в нашем гиде.
Мы убеждены: будущее за открытыми, проверяемыми моделями. Пусть хакеры и защитники используют одни и те же инструменты — тогда хотя бы битва будет честной.