Planner → Executor → Critic: multi-agent оркестратор от учёного | Обзор 2026 | AiManual
AiManual Logo Ai / Manual.
30 Янв 2026 Инструмент

Профессор биологии создал multi-agent оркестратор для локальных LLM. И он работает лучше, чем ожидалось

Профессор биологии построил multi-agent систему с архитектурой planner-executor-critic для локальных LLM. Анализ работы, примеры и сравнение с альтернативами.

Когда биолог устал от хаоса в AI-агентах

Профессор биологии из Токийского университета — не тот, кого вы ожидаете увидеть в мире multi-agent систем. Но именно он создал один из самых элегантных оркестраторов для локальных LLM, который сейчас набирает популярность в научных кругах. Проект родился из простой боли: исследователю нужно было анализировать тысячи научных статей, но существующие инструменты либо отправляли данные в облако (нельзя), либо работали как пьяные мартышки — без плана и качества.

Результат — система с архитектурой planner → executor → critic, которая работает полностью локально через Ollama или Qwen. И да, она умеет то, что не могут многие коммерческие аналоги: сохранять контекст, проверять качество на каждом шаге и падать грациозно, когда что-то идёт не так.

💡
Интересный факт: создатель называет архитектуру "биологической" — planner как мозг, executor как мышцы, critic как иммунная система. Не метафора, а буквальное заимствование из системной биологии.

Архитектура, которая не теряет цель

Большинство multi-agent систем к 2026 году страдают от одной проблемы: контекстный дрейф. Агенты начинают с одной задачи, но через несколько итераций забывают, зачем вообще работают. Биолог решил это радикально — через жёсткую трёхэтапную архитектуру.

КомпонентРольМодель (пример)
PlannerРазбивает задачу на подзадачи, создаёт roadmapQwen2.5-72B (reasoning)
ExecutorВыполняет конкретные действия (поиск, анализ, генерация)Llama 4 32B или смесь специализированных моделей
CriticПроверяет качество, отправляет на доработку, запускает fallbackDeepSeek-R1 или специализированная модель для QA

Ключевое отличие от типичных multi-agent систем в том, что здесь нет равноправных агентов. Есть строгая иерархия: planner командует, executor работает, critic проверяет. Как в хорошей лаборатории — каждый знает свою роль.

Privacy mode: когда данные не должны уходить

В научных исследованиях есть данные, которые нельзя отправлять даже в приватное облако. Пациентские записи, предварительные результаты, коммерческие секреты. Оркестратор решает это через несколько уровней приватности:

  • Полная локальность: все модели работают через Ollama на вашем железе
  • Гибридный режим: критичные этапы локально, остальное — через API (с шифрованием)
  • Data masking: автоматическое обезличивание чувствительных данных перед любой отправкой

Система умеет определять, какие данные критичны, и либо обрабатывает их локально, либо маскирует. Например, при анализе медицинских статей имена пациентов заменяются на хэши ещё до попадания в prompt.

Важный момент: privacy mode не просто техническая фича, а философия проекта. Создатель настаивает, что AI-инструменты для науки должны быть приватными по умолчанию, а не как опция.

Quality gates: критика, которая не просто ругается

Большинство систем проверки качества в AI либо слишком простые (regex-проверки), либо слишком тяжёлые (отдельная LLM для каждой проверки). Здесь critic работает умнее:

  1. Контекстуальная проверка: critic знает исходную задачу и проверяет, не ушёл ли executor в сторону
  2. Многоуровневая валидация: от простых проверок структуры до семантического анализа
  3. Интеллектуальный fallback: если качество ниже порога — система не просто ругается, а предлагает конкретные исправления или запускает альтернативный pipeline

Пример из реального использования: при анализе химических формул critic проверяет не только правильность синтаксиса, но и химическую валидность соединений. Если формула невозможна в реальности — отправляет на переработку с конкретными замечаниями.

Сравнение с альтернативами: где этот оркестратор выигрывает

На рынке multi-agent систем к 2026 году есть гиганты вроде AgentCommander или KEF. Но у профессорского проекта есть несколько killer features:

КритерийЭтот оркестраторТипичные альтернативы
ПриватностьЛокальность как основа, а не опцияЧаще облачные решения
Качество контроляCritic с обратной связью и fallbackПростые валидации или post-hoc анализ
Контекстный дрейфПрактически исключён архитектуройЧастая проблема
Настройка под доменИз коробки для научных задачТребует кастомизации

Главное преимущество — система создавалась для реальных научных нужд, а не как очередной фреймворк для демонстрации возможностей. Каждая фича прошла проверку в лабораторных условиях.

Как это работает на практике: три реальных сценария

1Анализ научной литературы

Задача: проанализировать 1000 статей по CRISPR и выделить тренды за последние 5 лет.

  • Planner разбивает задачу: скачать статьи → извлечь данные → классифицировать по темам → найти паттерны
  • Executor последовательно выполняет каждый шаг, используя специализированные модели для каждого типа задач
  • Critic проверяет полноту данных, корректность классификации, валидность выводов

Результат — структурированный отчёт с визуализациями, причём система сама отмечает, где данных недостаточно или есть противоречия между источниками.

2Подготовка экспериментального протокола

Задача: создать детальный протокол для нового биологического эксперимента на основе существующих методик.

Planner здесь работает как старший научный сотрудник: определяет, какие этапы критичны, какие можно адаптировать, где нужны дополнительные проверки. Executor генерирует конкретные инструкции, списки реагентов, параметры оборудования. Critic проверяет безопасность, воспроизводимость, соответствие этическим нормам.

3Патентный поиск с анализом новизны

Самый сложный сценарий: нужно найти патенты в определённой области и оценить, насколько новая идея действительно нова.

Система не просто ищет ключевые слова — она анализирует claims патентов, сравнивает с предложенной идеей, оценивает overlapping. Critic здесь особенно важен: он проверяет, не упустил ли executor важные патенты, корректно ли проведено сравнение.

Кому подойдёт этот инструмент (а кому нет)

Идеальная аудитория:

  • Научные исследователи, работающие с чувствительными данными
  • Биотех-стартапы, которым нужна автоматизация анализа литературы
  • Академические лаборатории без бюджета на коммерческие AI-инструменты
  • Разработчики, которые хотят понять, как строить robust multi-agent системы

Не подойдёт:

  • Тем, кому нужна простота в стиле "нажал кнопку — получил ответ"
  • Проектам, где можно отправлять всё в OpenAI/Gemini без ограничений
  • Ситуациям, где важнее скорость, чем качество и точность

Создатель активно ищет коллабораторов — проект открыт для feedback и contributions. Если вы работаете в смежной области или хотите адаптировать систему под свои нужды, это хороший момент подключиться.

Под капотом: какие модели работают лучше всего

К 2026 году выбор локальных LLM огромен, но не все одинаково хороши для multi-agent задач. Из тестов создателя:

  • Для planner: Qwen2.5-72B показывает лучшие результаты в reasoning задачах. Альтернатива — Llama 4 70B, но она жрёт больше ресурсов.
  • Для executor: смесь специализированных моделей работает лучше одной большой. Например, для анализа текстов — Mistral-Nemo, для генерации кода — DeepSeek-Coder.
  • Для critic: здесь важна не raw мощность, а умение задавать правильные вопросы. DeepSeek-R1 или специализированные QA-модели показывают себя лучше всего.

Важный нюанс: система поддерживает динамическую замену моделей в runtime. Если critic обнаруживает, что текущая модель не справляется с конкретным типом проверки — он может запросить более подходящую модель из доступных.

Что дальше: куда движется проект

Сейчас система работает в основном для текстовых задач, но создатель уже экспериментирует с мультимодальностью. План на 2026-2027:

  1. Интеграция с мультимодальными моделями для анализа изображений и данных
  2. Автоматическая оптимизация pipeline на основе feedback от critic
  3. Поддержка распределённых вычислений между несколькими машинами
  4. Более интеллектуальный fallback механизм, который учится на своих ошибках

Самое интересное — создатель рассматривает систему как прототип для более сложных AI-организмов. Не агенты, а целые экосистемы с собственной эволюцией. Звучит как научная фантастика, но в биологии такие системы существуют миллиарды лет.

И последнее: если вы думаете, что multi-agent системы — это только для больших компаний с миллионными бюджетами, этот проект доказывает обратное. Иногда лучшие решения рождаются не в AI-лабораториях гигантов, а в скромной исследовательской группе, которая просто пытается решить свою конкретную проблему. И решает её так хорошо, что остальным приходится догонять.