Когда биолог устал от хаоса в AI-агентах
Профессор биологии из Токийского университета — не тот, кого вы ожидаете увидеть в мире multi-agent систем. Но именно он создал один из самых элегантных оркестраторов для локальных LLM, который сейчас набирает популярность в научных кругах. Проект родился из простой боли: исследователю нужно было анализировать тысячи научных статей, но существующие инструменты либо отправляли данные в облако (нельзя), либо работали как пьяные мартышки — без плана и качества.
Результат — система с архитектурой planner → executor → critic, которая работает полностью локально через Ollama или Qwen. И да, она умеет то, что не могут многие коммерческие аналоги: сохранять контекст, проверять качество на каждом шаге и падать грациозно, когда что-то идёт не так.
Архитектура, которая не теряет цель
Большинство multi-agent систем к 2026 году страдают от одной проблемы: контекстный дрейф. Агенты начинают с одной задачи, но через несколько итераций забывают, зачем вообще работают. Биолог решил это радикально — через жёсткую трёхэтапную архитектуру.
| Компонент | Роль | Модель (пример) |
|---|---|---|
| Planner | Разбивает задачу на подзадачи, создаёт roadmap | Qwen2.5-72B (reasoning) |
| Executor | Выполняет конкретные действия (поиск, анализ, генерация) | Llama 4 32B или смесь специализированных моделей |
| Critic | Проверяет качество, отправляет на доработку, запускает fallback | DeepSeek-R1 или специализированная модель для QA |
Ключевое отличие от типичных multi-agent систем в том, что здесь нет равноправных агентов. Есть строгая иерархия: planner командует, executor работает, critic проверяет. Как в хорошей лаборатории — каждый знает свою роль.
Privacy mode: когда данные не должны уходить
В научных исследованиях есть данные, которые нельзя отправлять даже в приватное облако. Пациентские записи, предварительные результаты, коммерческие секреты. Оркестратор решает это через несколько уровней приватности:
- Полная локальность: все модели работают через Ollama на вашем железе
- Гибридный режим: критичные этапы локально, остальное — через API (с шифрованием)
- Data masking: автоматическое обезличивание чувствительных данных перед любой отправкой
Система умеет определять, какие данные критичны, и либо обрабатывает их локально, либо маскирует. Например, при анализе медицинских статей имена пациентов заменяются на хэши ещё до попадания в prompt.
Важный момент: privacy mode не просто техническая фича, а философия проекта. Создатель настаивает, что AI-инструменты для науки должны быть приватными по умолчанию, а не как опция.
Quality gates: критика, которая не просто ругается
Большинство систем проверки качества в AI либо слишком простые (regex-проверки), либо слишком тяжёлые (отдельная LLM для каждой проверки). Здесь critic работает умнее:
- Контекстуальная проверка: critic знает исходную задачу и проверяет, не ушёл ли executor в сторону
- Многоуровневая валидация: от простых проверок структуры до семантического анализа
- Интеллектуальный fallback: если качество ниже порога — система не просто ругается, а предлагает конкретные исправления или запускает альтернативный pipeline
Пример из реального использования: при анализе химических формул critic проверяет не только правильность синтаксиса, но и химическую валидность соединений. Если формула невозможна в реальности — отправляет на переработку с конкретными замечаниями.
Сравнение с альтернативами: где этот оркестратор выигрывает
На рынке multi-agent систем к 2026 году есть гиганты вроде AgentCommander или KEF. Но у профессорского проекта есть несколько killer features:
| Критерий | Этот оркестратор | Типичные альтернативы |
|---|---|---|
| Приватность | Локальность как основа, а не опция | Чаще облачные решения |
| Качество контроля | Critic с обратной связью и fallback | Простые валидации или post-hoc анализ |
| Контекстный дрейф | Практически исключён архитектурой | Частая проблема |
| Настройка под домен | Из коробки для научных задач | Требует кастомизации |
Главное преимущество — система создавалась для реальных научных нужд, а не как очередной фреймворк для демонстрации возможностей. Каждая фича прошла проверку в лабораторных условиях.
Как это работает на практике: три реальных сценария
1Анализ научной литературы
Задача: проанализировать 1000 статей по CRISPR и выделить тренды за последние 5 лет.
- Planner разбивает задачу: скачать статьи → извлечь данные → классифицировать по темам → найти паттерны
- Executor последовательно выполняет каждый шаг, используя специализированные модели для каждого типа задач
- Critic проверяет полноту данных, корректность классификации, валидность выводов
Результат — структурированный отчёт с визуализациями, причём система сама отмечает, где данных недостаточно или есть противоречия между источниками.
2Подготовка экспериментального протокола
Задача: создать детальный протокол для нового биологического эксперимента на основе существующих методик.
Planner здесь работает как старший научный сотрудник: определяет, какие этапы критичны, какие можно адаптировать, где нужны дополнительные проверки. Executor генерирует конкретные инструкции, списки реагентов, параметры оборудования. Critic проверяет безопасность, воспроизводимость, соответствие этическим нормам.
3Патентный поиск с анализом новизны
Самый сложный сценарий: нужно найти патенты в определённой области и оценить, насколько новая идея действительно нова.
Система не просто ищет ключевые слова — она анализирует claims патентов, сравнивает с предложенной идеей, оценивает overlapping. Critic здесь особенно важен: он проверяет, не упустил ли executor важные патенты, корректно ли проведено сравнение.
Кому подойдёт этот инструмент (а кому нет)
Идеальная аудитория:
- Научные исследователи, работающие с чувствительными данными
- Биотех-стартапы, которым нужна автоматизация анализа литературы
- Академические лаборатории без бюджета на коммерческие AI-инструменты
- Разработчики, которые хотят понять, как строить robust multi-agent системы
Не подойдёт:
- Тем, кому нужна простота в стиле "нажал кнопку — получил ответ"
- Проектам, где можно отправлять всё в OpenAI/Gemini без ограничений
- Ситуациям, где важнее скорость, чем качество и точность
Создатель активно ищет коллабораторов — проект открыт для feedback и contributions. Если вы работаете в смежной области или хотите адаптировать систему под свои нужды, это хороший момент подключиться.
Под капотом: какие модели работают лучше всего
К 2026 году выбор локальных LLM огромен, но не все одинаково хороши для multi-agent задач. Из тестов создателя:
- Для planner: Qwen2.5-72B показывает лучшие результаты в reasoning задачах. Альтернатива — Llama 4 70B, но она жрёт больше ресурсов.
- Для executor: смесь специализированных моделей работает лучше одной большой. Например, для анализа текстов — Mistral-Nemo, для генерации кода — DeepSeek-Coder.
- Для critic: здесь важна не raw мощность, а умение задавать правильные вопросы. DeepSeek-R1 или специализированные QA-модели показывают себя лучше всего.
Важный нюанс: система поддерживает динамическую замену моделей в runtime. Если critic обнаруживает, что текущая модель не справляется с конкретным типом проверки — он может запросить более подходящую модель из доступных.
Что дальше: куда движется проект
Сейчас система работает в основном для текстовых задач, но создатель уже экспериментирует с мультимодальностью. План на 2026-2027:
- Интеграция с мультимодальными моделями для анализа изображений и данных
- Автоматическая оптимизация pipeline на основе feedback от critic
- Поддержка распределённых вычислений между несколькими машинами
- Более интеллектуальный fallback механизм, который учится на своих ошибках
Самое интересное — создатель рассматривает систему как прототип для более сложных AI-организмов. Не агенты, а целые экосистемы с собственной эволюцией. Звучит как научная фантастика, но в биологии такие системы существуют миллиарды лет.
И последнее: если вы думаете, что multi-agent системы — это только для больших компаний с миллионными бюджетами, этот проект доказывает обратное. Иногда лучшие решения рождаются не в AI-лабораториях гигантов, а в скромной исследовательской группе, которая просто пытается решить свою конкретную проблему. И решает её так хорошо, что остальным приходится догонять.