Когда инцидент случается в 3 ночи, а ваш SRE спит
Представьте: алерты срабатывают, графики падают, пользователи жалуются. Классика. Вы открываете Slack, видите 200+ сообщений в инцидентном канале, и понимаете — следующие 4 часа жизни потрачены на поиск иголки в стоге логов. Знакомо?
Теперь представьте альтернативу: система сама анализирует логи, метрики, трассировки, находит корневую причину и предлагает конкретные шаги для фикса. И делает это на вашем железе, не отправляя данные в чужие облака. Звучит как фантастика 2023 года? На февраль 2026 это реальность под названием IncidentFox.
Что такое IncidentFox? Open-source инструмент, который превращает локальные LLM (через Ollama) в автономного SRE-инженера. Он мониторит системы, анализирует инциденты, ищет root cause и даже предлагает решения. Всё работает внутри вашего периметра.
Чем IncidentFox отличается от других AIOps-решений?
Главное отличие — приватность. Не нужно отправлять логи в OpenAI, Anthropic или другие облачные сервисы. Вся обработка происходит локально на моделях вроде Llama 3.2, Qwen2.5 или DeepSeek Coder (актуальные версии на февраль 2026).
| Что делает | Как делает | Почему это важно |
|---|---|---|
| Сбор данных | Подключается к Prometheus, Loki, Jaeger, Elasticsearch | Видит всю картину: метрики, логи, трассировки |
| Анализ инцидентов | Использует локальную LLM через Ollama API | Данные не уходят за пределы инфраструктуры |
| Поиск root cause | Коррелирует события по времени и зависимостям | Находит неочевидные связи между системами |
| Рекомендации | Предлагает команды для исправления или rollback | Сокращает MTTR (mean time to resolution) |
Если вы уже экспериментировали с on-prem AI стеком, IncidentFox станет логичным продолжением — специализированным инструментом для SRE, а не общим фреймворком.
Альтернативы? Есть, но с подвохом
Перед IncidentFox стоял выбор: либо платить за облачные AI-сервисы и делиться данными, либо строить что-то своё. Первый вариант проще, но опаснее. Второй — сложнее, но безопаснее.
- PagerDuty + GPT-4: Удобно, но дорого и не приватно. Каждый инцидент — это отправка логов в OpenAI.
- Datadog AIOps: Мощно, но стоит как небольшой самолёт. И снова — данные в облаке.
- Самописные скрипты: Бесплатно и приватно, но требуют постоянной поддержки. Кто будет их дорабатывать в 3 утра?
- IncidentFox: Бесплатно, приватно, и уже готово к работе. Нужно только настроить.
Важно: IncidentFox не заменяет опытного SRE. Он помогает быстрее разобраться в инциденте, но окончательное решение всегда за человеком. Особенно когда дело доходит до рискованных операций вроде rollback продакшена.
Что нужно для запуска? Минимум 16GB RAM и понимание Docker
Технические требования скромные, если не пытаться запускать модели-гиганты. Для начала хватит:
- Сервер с 16+ GB RAM (лучше 32GB)
- Docker и Docker Compose
- Ollama с одной из современных моделей (рекомендую Qwen2.5-Coder-7B-Instruct — хороший баланс размера и качества на февраль 2026)
- Доступ к системам мониторинга (Prometheus, Loki и т.д.)
Если вы уже работали с локальными LLM, настройка займёт час. Если нет — готовьтесь к танцам с бубном вокруг квот памяти.
1 Клонируем и настраиваем
Первое — берём код из GitHub. Второе — смотрим на конфигурацию. Всё стандартно: docker-compose.yml, .env файл, пара конфигов.
Самое важное — настройка подключений к вашим системам. IncidentFox поддерживает плагины для:
- Prometheus (метрики)
- Loki или Elasticsearch (логи)
- Jaeger или Tempo (трассировки)
- Slack или Teams (уведомления)
Без этих данных инструмент слеп. Он будет пытаться анализировать инциденты, не видя что происходит. Как DevOps для ИИ, который пытается чинить инфраструктуру вслепую.
2 Выбираем модель для Ollama
Здесь начинается магия. Какую модель выбрать? Зависит от задач и ресурсов.
| Модель (актуально на 02.2026) | Размер | Для чего подходит | Минимум RAM |
|---|---|---|---|
| Qwen2.5-Coder-7B-Instruct | 7B параметров | Анализ логов, поиск ошибок в коде | 16GB |
| Llama 3.2-3B-Instruct | 3B параметров | Базовый анализ, классификация инцидентов | 8GB |
| DeepSeek Coder-6.7B-Instruct | 6.7B параметров | Сложный анализ, генерация команд для исправления | 16GB |
Мой совет: начните с Qwen2.5-Coder-7B. Она хорошо понимает технический контекст и не требует космических ресурсов. Если нужно что-то полегче — Llama 3.2-3B. Тяжелее — DeepSeek Coder.
3 Настраиваем детекцию инцидентов
IncidentFox может работать в двух режимах: реактивном и проактивном.
Реактивный: Ждёт алертов из Prometheus Alertmanager, затем начинает анализ. Проще, но уже после того как всё сломалось.
Проактивный: Сам мониторит метрики, ищет аномалии, пытается предсказать проблемы. Сложнее, но может предотвратить инцидент.
Для начала настройте реактивный режим. Подключите Alertmanager, настройте правила. Когда IncidentFox получит первый алерт — он запросит у Ollama анализ: «Что происходит? Где корень проблемы? Что делать?»
Ответ будет примерно таким: «Обнаружено резкое увеличение latency в сервисе payment-service. Коррелирует с увеличением ошибок 500 в логах. Возможная причина — исчерпание соединений к БД. Рекомендуется проверить пул соединений и увеличить лимиты.»
Пример из жизни: база данных захлебнулась
Реальный кейс (имена изменены): В 2:14 ночи сработал алерт на высокую нагрузку CPU БД. IncidentFox получил алерт, собрал:
- Метрики из Prometheus (CPU, memory, connections)
- Логи из Loki (медленные запросы, ошибки)
- Трассировки из Jaeger (какие сервисы вызывают БД)
Анализ занял 45 секунд. Вывод: «Один из микросервисов начал выполнять heavy-запрос без индекса. Запрос блокирует таблицу, другие запросы встают в очередь. Рекомендация: найти и остановить проблемный запрос, добавить индекс.»
Команда получила не просто алерт «CPU high», а готовый анализ с конкретными шагами. Время на понимание проблемы сократилось с 30 минут до 2.
Кому подойдёт IncidentFox? Не всем
Это инструмент для тех, кто:
- Ценит приватность и не хочет отправлять логи в сторонние сервисы. Особенно актуально для финтеха, медицины, госсектора.
- Уже имеет налаженный стек мониторинга (Prometheus, Loki, etc). IncidentFox не заменяет мониторинг, а дополняет его.
- Готов тратить время на настройку и калибровку. Out-of-the-box он работает, но для максимальной эффективности нужна тонкая настройка под вашу инфраструктуру.
- Имеет команду SRE/DevOps, которая понимает и ценит автоматизацию. Инструмент для профессионалов, а не для новичков.
Если ваша компания только начинает путь автоматизации, возможно, стоит сначала посмотреть на более простые инструменты для локальных LLM.
Ограничения и подводные камни
IncidentFox — не серебряная пуля. У него есть свои слабые места:
- Качество анализа зависит от модели. Локальные модели (особенно небольшие) могут ошибаться, пропускать важные детали, предлагать некорректные решения.
- Требует качественных данных. Если в Prometheus метрики называются как попало, а в Loki логи не структурированы — анализ будет бесполезен.
- Не заменяет человеческую экспертизу. Особенно в сложных, нестандартных ситуациях. Модель может не знать про специфику вашего приложения.
- Добавляет latency. Сбор данных + анализ занимают время. Для критически важных систем каждая секунда на счету.
И главное: IncidentFox нужно обучать на ваших данных. Первые недели он будет часто ошибаться. Нужно корректировать его выводы, чтобы он учился. Как ребёнка, который только начинает понимать как работает мир.
Безопасность: Хотя IncidentFox работает локально, это не делает его автоматически безопасным. Модель может сгенерировать опасную команду (rm -rf /, кто-нибудь?). Всегда проверяйте рекомендации перед выполнением. Или настройте SAFi или аналогичные системы безопасности для LLM.
Что дальше? Интеграция с остальным стеком
После настройки IncidentFox можно интегрировать с другими инструментами вашего AI-стека:
- С Open Cowork для ведения инцидентных war rooms с AI-ассистентом
- С n8n или аналогичными для автоматизации действий по рекомендациям IncidentFox
- С системами развертывания для автоматического rollback при обнаружении проблем после деплоя
Получается полноценная локальная AI-система для мониторинга и реагирования, которая не зависит от облачных провайдеров.
Стоит ли игра свеч?
Если у вас 5 серверов и 2 микросервиса — вероятно, нет. Ручной анализ проще и быстрее. Но если у вас распределённая система из сотен сервисов, тысячи метрик, терабайты логов — IncidentFox может стать тем самым инструментом, который вернёт вам сон по ночам.
Он не идеален. Требует настройки, обучения, внимания. Но он даёт то, что не купишь за деньги: полный контроль над данными и процессами. В мире, где каждый облачный провайдер хочет заглянуть в ваши логи, это дорогого стоит.
Попробуйте. Начните с тестового окружения. Настройте на одном сервисе. Посмотрите, как он работает. Если понравится — масштабируйте. Если нет — удалите. Риск минимальный, потенциальная выгода — огромная.
И помните: лучший AI SRE — это тот, который молчит, когда всё хорошо, и говорит чётко и по делу, когда всё плохо. IncidentFox стремится стать именно таким.