Стартап: ИИ для DevOps через SSH | AI-агенты для инфраструктуры | AiManual
AiManual Logo Ai / Manual.
28 Дек 2025 Инструмент

Как мы сделали стартап, научив ИИ работать с реальной инфраструктурой через SSH

История создания стартапа, который научил ИИ управлять реальной инфраструктурой через SSH. Кейс автоматизации DevOps с помощью AI-агентов.

От идеи к продукту: как родился проект

Всё началось с простой, но болезненной проблемы: наши DevOps-инженеры тратили часы на рутинные задачи по обслуживанию инфраструктуры. Проверка логов, перезапуск сервисов, мониторинг дискового пространства — всё это требовало постоянного внимания и отвлекало от стратегических задач.

Мы попробовали использовать существующие инструменты автоматизации, но они либо были слишком сложными в настройке, либо не могли адаптироваться к нестандартным ситуациям. Именно тогда пришла идея: а что если научить ИИ работать с инфраструктурой напрямую, через SSH, как это делает человек?

💡
Ключевое отличие нашего подхода — ИИ работает не через API или специальные интерфейсы, а через SSH-сессию, точно так же, как опытный системный администратор. Это позволяет интегрироваться с любой инфраструктурой, независимо от её конфигурации.

Техническая реализация: как работает наш AI-агент

Основная сложность заключалась в том, чтобы научить языковую модель не просто генерировать команды, а понимать контекст инфраструктуры, анализировать результаты выполнения команд и принимать решения на основе этой информации.

1Архитектура решения

Мы построили систему на основе трёх ключевых компонентов:

  • SSH-шлюз — безопасный прокси для подключения к целевым серверам
  • Оркестратор задач — планировщик и монитор выполнения операций
  • AI-ядро — языковая модель, которая анализирует, планирует и выполняет задачи

2Рабочий процесс AI-агента

Когда пользователь ставит задачу (например, "проверь, почему медленно работает сайт"), система работает по следующему алгоритму:

# Упрощенный пример рабочего процесса
async def diagnose_slow_website(server_ip):
    # 1. Установка SSH-соединения
    async with SSHClient(server_ip) as client:
        
        # 2. Сбор диагностической информации
        commands = [
            "top -bn1 | head -20",
            "df -h",
            "netstat -tulpn | grep :80",
            "tail -100 /var/log/nginx/access.log"
        ]
        
        results = {}
        for cmd in commands:
            output = await client.execute(cmd)
            results[cmd] = output
            
        # 3. Анализ данных AI-моделью
        analysis = await ai_analyze(results)
        
        # 4. Выполнение корректирующих действий
        if "high load" in analysis:
            await client.execute("systemctl restart nginx")
            return "Перезапущен nginx из-за высокой нагрузки"
        
    return analysis

Ключевые возможности платформы

ВозможностьОписаниеПример использования
Автоматическая диагностикаИИ анализирует состояние системы и выявляет проблемы"Найди причину медленной работы базы данных"
Плановое обслуживаниеАвтоматическое выполнение рутинных задач"Очисти старые логи, если диск заполнен на 80%"
Аварийное реагированиеАвтоматическое восстановление после сбоев"Если сервис упал — перезапусти его и отправь уведомление"
БезопасностьКонтроль доступа и аудит всех действийВсе команды логируются и требуют подтверждения для критических операций

Сравнение с альтернативами

На рынке существует несколько подходов к автоматизации инфраструктуры:

Важно понимать, что наш продукт не заменяет традиционные инструменты вроде Ansible или Terraform, а дополняет их, добавляя интеллектуальный слой поверх существующей автоматизации.

РешениеПреимуществаНедостаткиКогда выбирать
Наш AI-агентГибкость, адаптивность, работа с нестандартными ситуациямиТребует обучения под конкретную инфраструктуруДля динамических сред, где нужен интеллектуальный анализ
Ansible/TerraformДекларативность, идемпотентность, сообществоЖесткие playbook'и, сложность с нестандартными задачамиДля повторяющихся, хорошо определенных задач
Кастомные скриптыПолный контроль, оптимизация под конкретные нуждыСложность поддержки, нет адаптивностиДля уникальных, редко меняющихся процессов
Мониторинг (Prometheus)Отличный сбор метрик, алертингТолько мониторинг, без автоматических действийДля наблюдения и алертинга

Реальный кейс: автоматизация обслуживания кластера Kubernetes

Один из наших первых клиентов — компания со сложным Kubernetes-кластером из 50+ нод. Их проблема: инженеры постоянно отвлекались на рутинные задачи типа:

  • Поиск и удаление завершенных Pod'ов
  • Очистка Docker-образов
  • Мониторинг использования ресурсов
  • Диагностика проблем с сетевыми политиками

Мы настроили AI-агента, который теперь выполняет эти задачи автоматически. Вот пример конфигурации:

# Конфигурация задачи для Kubernetes-кластера
tasks:
  - name: "cleanup_finished_pods"
    trigger:
      schedule: "0 */2 * * *"  # Каждые 2 часа
      condition: "pods_finished > 10"
    actions:
      - "kubectl get pods --all-namespaces | grep Completed | awk '{print \"kubectl delete pod \" $2 \" -n \" $1}' | sh"
    notification:
      on_success: false
      on_failure: true

  - name: "monitor_node_resources"
    trigger:
      schedule: "*/15 * * * *"  # Каждые 15 минут
    actions:
      - "kubectl top nodes"
      - "kubectl describe nodes | grep -A 10 -B 5 'OutOfMemory\|OutOfDisk'"
    ai_analysis:
      enabled: true
      instructions: "Проанализируй использование ресурсов. Если какая-то нода использует больше 90% памяти или CPU более 10 минут, предложи решение."

Результат: команда DevOps сократила время на рутинные задачи на 70%, а количество инцидентов, связанных с нехваткой ресурсов, уменьшилось на 40%.

Технические детали реализации

Для работы с ИИ мы рассмотрели несколько вариантов. Изначально пробовали локальные модели через LM Studio и llama.cpp, но для продакшена выбрали облачные API из-за стабильности и скорости.

Интересно, что для некоторых задач мы используем компактные модели вроде Liquid AI LFM2-2.6B для предварительной обработки команд, а уже затем отправляем сложные задачи в более мощные модели.

Архитектурный стек:

  • Бэкенд: Python + FastAPI + AsyncSSH
  • AI-модели: Комбинация локальных и облачных (OpenAI, Anthropic, GLM 4.7 от Zhipu)
  • Очереди задач: Redis + RQ
  • Хранилище: PostgreSQL для метаданных, S3 для логов
  • Интерфейс: React + Tailwind CSS

Кому подойдет наш инструмент?

АудиторияПроблемаКак мы помогаем
СтартапыНет бюджета на полноценную DevOps-командуАвтоматизируем рутину за небольшую плату
Крупные компанииDevOps-инженеры перегружены рутинойОсвобождаем время для стратегических задач
АгентстваМного клиентов с разной инфраструктуройЕдиный инструмент для всех клиентов
РазработчикиНужно управлять инфраструктурой без глубоких знаний DevOpsИнтерфейс на естественном языке

Будущее развития

Сейчас мы работаем над несколькими ключевыми улучшениями:

  1. Поддержка большего количества протоколов — кроме SSH, добавим WinRM, Telnet, Serial
  2. Интеграция с существующими системами — Ansible, Terraform, Kubernetes Operators
  3. Улучшенное обучение моделей — специализированные модели для разных типов инфраструктуры
  4. Сообщество шаблонов — пользователи смогут делиться конфигурациями задач

Мы верим, что будущее DevOps — за интеллектуальной автоматизацией, где ИИ не просто выполняет скрипты, а понимает контекст, учится на ошибках и предлагает оптимальные решения.

💡
Если вы хотите попробовать наш инструмент в действии или обсудить потенциальное сотрудничество — напишите нам. Мы всегда открыты к диалогу с инженерами и единомышленниками.

Выводы и рекомендации

Создание стартапа на стыке ИИ и DevOps оказалось сложной, но невероятно интересной задачей. Ключевые уроки, которые мы извлекли:

  • Безопасность — прежде всего: Любой инструмент, работающий с SSH, должен иметь многоуровневую систему защиты
  • Постепенное внедрение: Начинайте с самых болезненных, но наименее критичных задач
  • Человек в цикле: ИИ должен помогать, а не заменять инженеров полностью
  • Постоянное обучение: Каждая ошибка — возможность улучшить модель

Если вы рассматриваете подобные технологии для своей инфраструктуры, начните с малого: автоматизируйте одну конкретную задачу, измерьте эффект, и только потом масштабируйтесь. И помните — лучший инструмент тот, который решает вашу конкретную проблему, а не тот, у которого больше всего функций.