Сравнение Qwen3.6-27B на LangGraph, AutoGen, CrewAI и llama.cpp | AiManual
AiManual Logo Ai / Manual.
22 Июн 2026 Новости

Qwen3.6-27B на четырёх фреймворках: одинаковый промпт, разный результат

Qwen3.6-27B показала разное поведение на четырёх агентских фреймворках. Какой из них вытягивает максимум из модели, а какой ломает логику? Результаты теста.

Реклама
partv2

Одна и та же модель, один и тот же промпт, четыре разных агентских фреймворка — и четыре совершенно разные судьбы. Звучит как сценарий для черной комедии про AI, но это реальность, с которой столкнулся любой, кто пытался запустить локального агента на Qwen3.6-27B.

Мы взяли самую свежую на 22 июня 2026 года версию Qwen3.6-27B (квантованную в 4-битный GGUF через llama.cpp) и заставили её решать одну и ту же задачу: собрать информацию о погоде, найти билеты на самолёт и написать краткий отчет. Никаких подсказок по формату, никаких chain-of-thought шаблонов — только системный промпт агента. Инструменты одинаковые: поиск в интернете, парсинг HTML, калькулятор.

Фреймворки: LangGraph (последний релиз на графах), AutoGen (с тремя агентами-помощниками), CrewAI (с ролью аналитика и планировщика) и кастомный агентный луп на голом llama.cpp через Python (без всяких обёрток).

Результаты? Местами смешные, местами пугающие. И очень показательные.

LangGraph: слишком умный, чтобы быть послушным

LangGraph построен на directed-acyclic-graph — каждый шаг зависит от предыдущего. Звучит надёжно. На практике Qwen3.6-27B в этом фреймворке начала галлюцинировать на ровном месте: на втором шаге (поиск билетов) она решила, что ей не хватает данных, и сгенерировала фиктивный API-запрос к воображаемому сервису. LangGraph послушно передал этот запрос дальше, и агент начал «возвращать» вымышленные ответы. В отчёте появились авиакомпании, которых не существует.

Парадокс: чем сложнее граф переходов, тем больше у модели возможностей «уйти в отрыв». LangGraph даёт агенту слишком много свободы в выборе следующего действия — и если у модели разыгралась фантазия, исправить это можно только жёсткой валидацией на уровне фреймворка.

С другой стороны, на простых задачах (без внешних API) LangGraph показал самую низкую задержку — граф буквально «летел». Но для реальных рабочих целей этот фреймворк требует дополнительного layer safety, что съедает преимущество в скорости.

AutoGen: дипломатия трёх агентов

AutoGen от Microsoft — это мультиагентная система: у нас было три экземпляра Qwen3.6-27B, каждый со своей ролью (планировщик, исполнитель, критик). Идея в том, что они спорят и уточняют друг друга. На деле получился бесконечный диалог, где планировщик предлагал «оптимизировать поиск», исполнитель выдавал частичный результат, а критик требовал «больше деталей». Через 15 минут агенты всё ещё не вышли на финальный отчёт — они зациклились.

Проблема в том, что инструкция «критиковать» для Qwen3.6-27B оказалась слишком буквальной. Модель не умеет отличать конструктивную критику от перфекционизма. Нам пришлось вручную ставить лимит на количество итераций. После этого результат был качественным, но время выполнения — в 2 раза выше, чем у конкурентов.

AutoGen — отличный выбор для сложных, недетерминированных задач, где важен перебор вариантов. Но для простого сбора данных — это оверкилл. Qwen3.6-27B начинает играть роль адвоката дьявола сама с собой.

Кстати, похожую проблему с мультиагентностью мы замечали и в статье о тесте Qwen3.5-35B — модели sub-100B плохо удерживают роли без чётких границ. Qwen3.6-27B не исключение.

CrewAI: роль съела агента

CrewAI с его ролевой моделью (Senior Analyst, Data Collector, Reviewer) показал самое забавное поведение. Qwen3.6-27B настолько вошла в роль «Senior Analyst», что начала выдавать аналитические выкладки на пустом месте. На запрос «найди цены на билеты» она вместо поиска написала: «Как старший аналитик, я предполагаю, что цены выросли на 12% по сравнению с прошлым кварталом». Цифра была вымышленной, но подана убедительно.

Фреймворк не проверяет, использовала ли модель инструменты или просто сгенерировала текст. CrewAI хорош для креативных задач (написание отчётов, генерация идей), но для фактологических — провал.

Интересно, что в эксперименте SERA vs Devstral vs Qwen3-Coder авторы тоже заметили, что агенты с ролями склонны к «актёрской игре» — имитации работы без реального вызова инструментов.

Кастомный луп на llama.cpp: скучно, но стабильно

Самый неожиданный победитель — самодельный агент на чистом llama.cpp. Никаких оркестраторов, просто цикл: системный промпт, вызов функции по JSON-схеме, парсинг ответа, повтор. Qwen3.6-27B в этом режиме работала как часы: ни одного галлюцинированного API, никаких лишних рассуждений.

Почему? Потому что фреймворк не давал ей выбора. В LangGraph и AutoGen модель сама решала, какой шаг делать дальше — и ошибки накапливались. В кастомном лупе каждый вызов жёстко задан: «сейчас ты ищешь погоду, потом — билеты, потом — пишешь отчёт». Свобода — это ответственность, и Qwen3.6-27B с ней не справилась.

💡
Вывод неожиданный: чем меньше «интеллекта» в фреймворке, тем адекватнее поведение модели. Кастомный луп на llama.cpp — это не шаг назад, а осознанный выбор для production, где предсказуемость важнее креативности.

Кстати, настройка такого лупа для Qwen3.6-27B описана в нашем гайде по запуску агента на слабой видеокарте — принципы те же, только модель больше.

Где искать компромисс

Проблема не в модели, а в архитектуре фреймворков. Qwen3.6-27B — сильная open source модель (последняя версия от 26B, улучшенное reasoning). Но агентские фреймворки рассчитаны на более «послушные» модели или на использование chain-of-thought, которое подавляет галлюцинации. В наших тестах мы намеренно не добавляли CoT-шаблонов, чтобы увидеть «чистое» поведение.

Если вы выбираете фреймворк для Qwen3.6-27B:

  • LangGraph — для задач, где каждый шаг жёстко прописан графом (но модель должна быть с дополнительной валидацией).
  • AutoGen — для исследовательских задач, где нужен перебор гипотез (но с лимитом итераций).
  • CrewAI — только для генерации текста, не используйте для извлечения фактов.
  • Кастомный луп на llama.cpp — для production, где цена ошибки высока.

Интересно, что в бенчмарке для RTX 5080 Qwen3.6-27B в MTP-режиме показывала хорошую скорость, но именно в агентском сценарии разница между фреймворками стала критической.

Наш совет: выбирайте фреймворк не по маркетинговым обещаниям, а по тому, насколько он ограничивает модель. Qwen3.6-27B — отличный исполнитель, но плохой менеджер. Не давайте ей свободы, и она отблагодарит вас точностью.

Подписаться на канал