Тест Qwen 3.6 Plus на агентском кодировании с IDE и PATCH | AiManual
AiManual Logo Ai / Manual.
31 Мар 2026 Инструмент

Qwen 3.6 Plus Preview: Глубокий тест на агентском кодировании — как модель справилась с IDE и PATCH-командами

Глубокий практический тест новой модели Qwen 3.6 Plus (179B параметров) в задачах агентского кодирования с использованием IDE и PATCH-команд. Результаты и сравн

Новый монстр от Alibaba: 179 миллиардов параметров против реального кода

Релиз Qwen 3.6 Plus в марте 2026 года — это не просто апдейт. Это заявка на абсолютное лидерство в open-source сегменте для разработки. После триумфа Qwen 3.5, который, как мы писали, сломал дихотомию «быстрый или умный» для локальных ассистентов, команда Alibaba не стала почивать на лаврах.

Внимание: речь идет о preview-версии модели, доступной через OpenRouter и некоторые другие шлюзы. Финальный релиз ожидается в апреле 2026.

Что нового? 179 миллиардов параметров (против 72B у флагманской версии 3.5), контекстное окно в 1 миллион токенов и заявленная поддержка структурированного вывода для агентских сценариев. Последний пункт — ключевой. Ранние модели, даже такие сильные, как Qwen3-Coder-Next, о котором мы рассказывали в контексте бизнес-анализа, часто спотыкались на итеративных задачах, где нужно не просто написать код, а взаимодействовать со средой.

Мы решили проверить это на практике. Не на синтетических бенчмарках, а в условиях, максимально приближенных к работе автономного агента-разработчика. Сценарий прост: модель должна исправить баг в открытом репозитории, используя только команды IDE и PATCH.

Архитектурные изменения, которые все меняют

Первое, что бросается в глаза — новая система внимания. Разработчики называют ее «динамически стратифицированной». В теории это должно решить проблему падения качества на длинных контекстах. Помните, как в нашем тесте на 70 репозиториях модели начинали галлюцинировать после 50-й страницы кода? Qwen 3.6 Plus обещает держать фокус даже на 200+ файлах.

💡
Контекст в 1 млн токенов — это примерно 700 страниц чистого кода. Достаточно чтобы загрузить весь репозиторий среднего микросервиса со всеми зависимостями и документацией. Для рефакторинга крупных проектов — потенциальный game changer.

Второе — встроенная поддержка tool calling. Не как отдельный слой, а как часть архитектуры. Модель из коробки понимает, когда нужно выполнить команду в shell, когда прочитать файл, а когда применить патч. Это резко контрастирует с ранними версиями, где инструменты были скорее костылем.

Тест на выживание: баг в Next.js проекте и один PATCH

Мы взяли реальный issue из популярного open-source проекта на Next.js 15. Суть: неправильная обработка динамических маршрутов при определенных условиях кэширования. Задача для модели:

  1. Проанализировать код проекта (87 файлов, ~12 тысяч строк)
  2. Воспроизвести баг на основе описания в issue
  3. Найти корневую причину
  4. Предложить fix в виде PATCH-файла, который можно применить командой `git apply`

Почему именно PATCH? Потому что это проверка на точность. Одна ошибка в синтаксисе патча — и вся операция проваливается. Модель должна не только понять код, но и сгенерировать корректный дифф.

Как Qwen 3.6 Plus справилась с вызовом

Первое впечатление — скорость. Несмотря на 179B параметров, модель через OpenRouter отвечала за 3-5 секунд. Это сравнимо с облачными API, но с одним нюансом: контекст в 10 раз больше.

Этап задачи Результат Qwen 3.6 Plus Сравнение с Qwen 3.5 Plus
Анализ кодовой базы Правильно идентифицировала 5 ключевых файлов из 87 3 файла, пропустила критическую зависимость
Воспроизведение бага Создала точный тест для воспроизведения Тест работал, но не покрывал edge case
Поиск причины Нашла проблему в функции кэширования (правильно) Указала на симптом, а не причину
Генерация PATCH Корректный патч сработал с первого раза Патч требовал ручной правки синтаксиса

Самое интересное произошло на этапе генерации PATCH. Модель не просто выдала дифф — она сопроводила его комментариями для каждого изменения, объяснив, почему именно эта правка нужна. Это уровень, который раньше был доступен только опытным разработчикам.

Сравнение с альтернативами: кто реально готов к агентской работе

Мы запустили тот же тест на других моделях, доступных на март 2026 года. Результаты отрезвляют.

Claude 3.7 Sonnet: справился с анализом, но на этапе PATCH выдал невалидный синтаксис. Исправить его вручную было проще, чем переделывать. Стоимость запроса при этом — $0.15. Qwen 3.6 Plus через OpenRouter обошлась в $0.03.

GPT-4.5 Turbo: как и в нашем сравнении бизнес-моделей, показал хорошее понимание, но слишком общие решения. Патч был правильным, но «избыточным» — менял больше кода, чем нужно.

Локальные кандидаты? Мы попробовали Qwen3-Coder-Next-72B (последняя версия на март 2026) на сервере с 2x RTX 6000. Качество похожее, но время ответа — 45 секунд против 5. Для интерактивной работы это неприемлемо.

Важный нюанс: Qwen 3.6 Plus пока доступна только через API (OpenRouter, Together AI). Локальных версий на март 2026 нет. Alibaba обещает их выпустить в течение квартала.

Где эта модель взрывает мозг, а где спотыкается

Сильные стороны Qwen 3.6 Plus в агентском кодировании:

  • Понимание контекста в несколько сотен файлов без потери деталей
  • Точное использование инструментов: не просто вызывает `git apply`, а проверяет, что патч применим
  • Итеративное мышление: если первое решение не работает, модель предлагает альтернативу, а не настаивает на своем

Слабые места (да, они есть):

  • Иногда слишком подробные объяснения. В продакшене это раздражает — хочется просто код.
  • Проблемы с очень старыми кодобазами на COBOL или Fortran (но кто виноват?)
  • Цена через API все же выше, чем у локальных моделей. Для постоянного использования может ударить по бюджету.

Кому срочно нужен доступ к Qwen 3.6 Plus

Эта модель — не для всех. Если вы делаете мелкие правки в скриптах или учитесь программировать, Qwen 3.5 или даже оптимизированная 9B версия справятся лучше.

Но если вы:

  • Ведущий разработчик, которому нужно рефакторить legacy-код
  • Создатель автономных агентов для разработки (помните наш гайд по локальным AI-агентам?)
  • Участник open-source проектов, где нужно быстро разбираться в чужом коде

Тогда да, попробовать стоит. Особенно через OpenRouter, где есть бесплатные квоты для тестирования.

Прогноз на 2026 год: к июню мы увидим локальные квантованные версии Qwen 3.6 Plus для домашних машин. И тогда текущие лидеры вроде Codex 5.3 придется сильно понервничать. Потому что бесплатный ассистент, который понимает миллион токенов контекста — это не будущее. Это настоящее, которое уже наступило.

Подписаться на канал