LLM+RAG для бизнеса: кейс автоматизации процессов «Островка» | AiManual
AiManual Logo Ai / Manual.
26 Фев 2026 Гайд

Внедрение LLM + RAG для автоматизации бизнес-процессов: пошаговый разбор кейса «Островка»

Практический гайд по внедрению LLM и RAG для создания цифрового сотрудника на основе каталога BPMN. Разбор архитектуры, кода и нюансов реализации.

Каталог процессов, который никто не открывает

В каждой второй компании есть Confluence с разделом «Бизнес-процессы». Там лежат сотни BPMN-диаграмм, созданных за бешеные деньги консультантами. Их открывают дважды: при сдаче проекта и во время аудита. Потом они умирают. Сотрудники не знают, как получить справку, руководители не помнят, кто согласует договор. Документация есть, но она не работает. Это и была проблема «Островка» — крупного ритейлера с 5000+ сотрудников.

От статичных диаграмм к живому консультанту

Вместо того чтобы заставлять людей читать диаграммы, мы создали цифрового сотрудника. Он сидит в Slack и отвечает на вопросы вроде: «Как оформить возврат товара?», «Кто подписывает акт выполненных работ для IT?», «Сколько дней идет согласование кредита?». Система не просто ищет текст в документах — она понимает контекст вопроса, находит нужный процесс, объясняет шаги и даже предупреждает о типичных ошибках. В основе — связка LLM и RAG (Retrieval-Augmented Generation).

💡
RAG здесь не просто модное слово. Это способ заставить модель отвечать строго по документам, не выдумывая. Без RAG LLM начнет сочинять процессы, которых нет в компании. А с RAG каждый ответ привязан к конкретным диаграммам и регламентам.

Архитектура: что внутри черного ящика

Система состоит из трех слоев. Первый — слой данных, где BPMN-диаграммы и PDF-регламенты разбираются на составные части: задачи, исполнители, условия, документы. Второй — слой интеллекта: векторная база с эмбеддингами и LLM (мы использовали GPT-4.5-Turbo, актуальную на начало 2026 года). Третий — слой интерфейса: чат-бот в Slack и веб-панель для администраторов. Ключевой компонент — пайплайн, который превращает диаграмму в структурированные данные для поиска. Это не просто chunking текста — это семантическая разметка процесса.

1 Выгрузка и очистка BPMN-диаграмм

BPMN — это XML. Но парсить его стандартными методами — путь в ад. В диаграммах есть кастомные атрибуты, непонятные названия задач (вроде «Процесс_финальный_версия_2»). Мы написали скрипт на Python, который использует библиотеку bpmn-python для разбора, но главное — эвристики для очистки. Например, объединение разрозненных задач в один логический блок.

import xml.etree.ElementTree as ET
from typing import Dict, List

def extract_bpmn_elements(bpmn_path: str) -> List[Dict]:
    """Извлекает задачи, шлюзы и события из BPMN-файла."""
    tree = ET.parse(bpmn_path)
    root = tree.getroot()
    # Namespace hell - всегда проблема с BPMN
    ns = {'bpmn': 'http://www.omg.org/spec/BPMN/20100524/MODEL'}
    
    elements = []
    for task in root.findall('.//bpmn:task', ns):
        element_data = {
            'id': task.get('id'),
            'name': task.get('name', '').strip(),
            'type': 'task',
            'documentation': ''
        }
        # Ищем документацию внутри элемента
        doc_elem = task.find('bpmn:documentation', ns)
        if doc_elem is not None and doc_elem.text:
            element_data['documentation'] = doc_elem.text.strip()
        elements.append(element_data)
    return elements

# Далее - нормализация названий
# "Согласование_у_директора_V2" -> "Согласование у директора"

Где все ломается: 70% времени ушло на очистку данных. BPMN-диаграммы рисовали разные люди, в них не было стандарта. Пришлось писать правила для 20+ вариантов названий. Без этого шага RAG будет возвращать мусор.

2 Построение семантического пайплайна

Обычный RAG режет текст на куски по 512 токенов. С процессами это не работает. Задача «Согласовать договор» связана с исполнителем «Финансовый директор», документом «Договор» и следующим шагом «Внести правки». Мы создали граф связей между элементами процесса. Для этого использовали подход из статьи «Как построить семантический пайплайн для LLM». Каждый узел графа — это осмысленный блок информации, а не случайный чанк.

3 Выбор и настройка LLM

Мы тестировали три модели: GPT-4.5-Turbo, Claude 3.7 Sonnet (актуальная версия на 2026 год) и открытую Mixtral 2. Для продакшена выбрали GPT-4.5-Turbo из-за лучшего следования инструкциям и поддержки JSON-формата ответов. Ключевой момент — промпт-инжиниринг. Мы не просто передаем контекст, а даем модели четкую роль: «Ты — эксперта по бизнес-процессам компании «Остров». Отвечай только на основе предоставленных данных. Если информация неполная — скажи об этом.»

SYSTEM_PROMPT = """Ты — ассистент по бизнес-процессам. Используй только предоставленные фрагменты документации. 
Отвечай кратко и по делу. Структура ответа:
1. Название процесса.
2. Ответственный.
3. Шаги.
4. Типичные ошибки.
Если данных недостаточно — напиши "Уточните вопрос" и укажи, какой информации не хватает.
"""

# Формирование промпта с контекстом из RAG
def build_prompt(question: str, contexts: List[str]) -> str:
    context_block = "\n\n".join([f"[Контекст {i+1}] {ctx}" for i, ctx in enumerate(contexts)])
    return f"{SYSTEM_PROMPT}\n\nКонтекст:\n{context_block}\n\nВопрос: {question}"

4 Сборка RAG-агента

Здесь мы использовали гибридный поиск: семантический (по эмбеддингам) и ключевые слова. Для векторизации — модель text-embedding-3-large, актуальную на 2026 год. Векторная база — Pinecone (serverless вариант, чтобы не париться с инфраструктурой). Агент не просто ищет похожие чанки, а ранжирует результаты по релевантности вопросу. Подробнее про архитектуру таких агентов можно почитать в обзоре RAG-агентов для бизнеса.

5 Интеграция в рабочий процесс

Бот добавлен в Slack-каналы отделов. Важный трюк — мы не делали его слишком умным. Он не выполняет действия в ERP, а только консультирует. Для автоматизации действий нужен multi-agent подход, как в статье про ERP-системы с мультиагентным ИИ. Наш бот — первый шаг. Он снизил нагрузку на HR и операционный отдел на 40%: сотрудники перестали слать письма с вопросами «Как сделать?».

Подводные камни, о которых не пишут в туториалах

  • Обновление данных. Процессы меняются каждый квартал. Если не настроить автоматическую переиндексацию при изменении диаграмм, бот начнет врать. Мы подключили вебхук из Confluence — при сохранении новой версии BPMN запускается пайплайн.
  • Конфиденциальность. В процессах есть фразы вроде «согласовать с генеральным директором лично». Эти данные не должны попадать в облако LLM провайдера. Мы использовали прокси-сервер для маскирования имен и должностей перед отправкой в OpenAI. Подробнее о безопасности в статье про аудит RAG.
  • Качество ответов. Первые версии бота давали слишком общие ответы. Мы добавили шаг пост-обработки, где LLM проверяет, что ответ соответствует контексту. Это снизило hallucination с 15% до 3%.

Частые ошибки и как их исправить

Ошибка Причина Решение
Бот отвечает «Не знаю» на простые вопросы Чанки слишком мелкие, контекст теряется Увеличить размер чанка до 1000 токенов, использовать семантическое сегментирование
Ответы содержат информацию из старых версий процессов Векторная база не обновляется Настроить TTL для эмбеддингов и фоновую переиндексацию
Запросы к LLM слишком дорогие Отправляется избыточный контекст Использовать delegation filter для фильтрации ненужных чанков

Что дальше? Эволюция цифровых сотрудников

Следующий шаг — научить бота не только объяснять процессы, но и выполнять рутинные действия. Например, по запросу «Напомни мне о дедлайне сдачи отчета» бот найдет процесс «Подготовка квартального отчета», посмотрит даты в календаре и отправит уведомление. Это потребует интеграции с API корпоративных систем и создания навыков, как в Skill Seekers v2.5.0. Главное — не пытаться сделать все сразу. Начните с консультанта, который уже дает ценность, а потом постепенно добавляйте автоматизацию.

🚀
Практический совет: Не используйте самописные векторные базы в продакшене на первых этапах. Возьмите managed-решение вроде Pinecone или Weaviate. Ваше время стоит дороже, чем $70/месяц за серверless базу. Инфраструктурные проблемы убивают проекты быстрее, чем плохие промпты.

Внедрение заняло 3 месяца от идеи до работающего прототипа. Ключевые цифры: обработка 500+ вопросов в день, точность ответов 92%, экономия 200 человеко-часов в месяц. Система окупилась за полгода. Это не магия — это инженерная работа с данными и актуальными инструментами 2026 года. Детальный roadmap по развитию RAG-систем можно найти в RAG 2026: От гибридного поиска до production.

Подписаться на канал