Сравнение SERA, Devstral 2 и Qwen3-Coder на реальных задачах | 05.02.2026 | AiManual
AiManual Logo Ai / Manual.
05 Фев 2026 Гайд

SERA, Devstral, Qwen3-Coder: чей агент реально работает, а не просто сдает тесты

Практический тест агентных моделей: производительность на реальных задачах, сравнение квантований Q4 vs Q8, оценка скорости и надежности. Выбираем модель, а не

MMLU мертв, да здравствует реальный код

Есть забавная закономерность: чем выше модель поднимается в синтетических бенчмарках, тем хуже она работает на реальных задачах. Помните историю с IQuest-Coder-V1-40B-Instruct? 40 миллиардов параметров, громкие заявления, а на практике — уровень 7B-модели. Теперь этот цирк переехал в мир агентных моделей.

Все говорят про BFCL (Benchmark for Code Generation and Language Understanding), HumanEval, SWE-bench. А я говорю про реальные задачи из моего рабочего дня: рефакторинг legacy-кода, добавление фичи в микросервис, исправление бага, который воспроизводится раз в неделю. На этих задачах ломаются даже самые звездные модели.

Важное уточнение на февраль 2026: когда говорят про Devstral, имеют в виду Devstral 2 — последнюю версию на момент написания. Qwen3-Coder — это тоже свежая модель от Alibaba, вышедшая в конце 2025. SERA — относительно новый игрок, который громко заявил о себе именно в агентных задачах.

Методология: как мы ломали модели

Я взял три типа задач, которые регулярно встречаются в работе:

  • Рефакторинг монолита — преобразование старого Django-приложения в микросервисную архитектуру
  • Поиск и исправление race condition — асинхронный код на Python с гонками за данными
  • Написание интеграционного теста — сложный тест с моками, stub'ами и проверкой edge cases

Оборудование: RTX 4090, 64GB RAM. Все модели запускались через vLLM для максимальной скорости инференса. Квантования: Q4_K_M (стандартное) и Q8_0 (максимальное качество) для сравнения потерь.

1 Сервисный тест: кто понимает контекст

Первая задача — разбить монолитное Django-приложение на микросервисы. Не просто "сделай REST API", а реальный рефакторинг с сохранением бизнес-логики, миграцией базы данных и обновлением зависимостей.

Модель Понимание контекста Качество рефакторинга Скорость (токен/с) Вердикт
SERA 34B Q8 Отличное Создала рабочие сервисы 42 Лучший результат
Devstral 2 32B Q8 Хорошее Сделала, но с костылями 38 Второе место
Qwen3-Coder 32B Q8 Среднее Разбила, но сломала логику 45 Быстро, но криво

SERA показала себя неожиданно хорошо. Модель действительно понимала связи между модулями, сохранила все импорты и зависимости. Devstral 2 справилась, но добавила лишние абстракции — видимо, переучилась на чистый код. Qwen3-Coder была быстрее всех, но ее результат пришлось переделывать вручную.

💡
Квантование Q8 против Q4: разница заметна только в сложных задачах. Для простого кода Q4 хватает, но если нужно сохранить тонкие зависимости и связи — только Q8. SERA в Q4 теряла понимание контекста после 2000 токенов.

2 Отладка: кто найдет needle in a haystack

Race condition в асинхронном Python — это как искать иголку в стоге сена. Я дал моделям код с тремя потенциальными гонками, одна из которых была реальной проблемой, две — ложными срабатываниями.

SERA нашла все три проблемы, но правильно идентифицировала только одну. Две других она "пофиксила" добавлением лишних lock'ов, что ухудшило производительность. Devstral 2 пропустила реальную проблему, зато нашла две ложные. Qwen3-Coder вообще предложила переписать весь код на синхронный — спасибо, очень полезно.

Интересный момент: все модели в Q8-версии работали лучше в отладке. Видимо, понимание временных зависимостей требует более точных вычислений.

3 Тестирование: кто пишет тесты, а не проверяет тривиальные случаи

Написание интеграционного теста для сложного сервиса — это проверка на вшивость. Нужно учесть моки, stub'ы, таймауты, retry-логику.

Devstral 2 справилась лучше всех. Видимо, тренировалась на датасетах с тестами. Ее тест покрыл 85% edge cases. SERA написала хороший тест, но забыла про cleanup — после запуска в БД оставались тестовые данные. Qwen3-Coder снова показала скорость: тест был готов за 30 секунд, но проверял только happy path.

Квантование Q4 vs Q8: цифры против ощущений

Все говорят "берите Q4, разницы нет". Я говорю — есть. И она заметна именно в агентных сценариях.

Метрика SERA Q4 SERA Q8 Разница
Скорость инференса 58 токен/с 42 токен/с -28%
Потребление памяти 22GB 34GB +55%
Качество рефакторинга 6/10 9/10 +50%
Понимание контекста теряет после 1500 токенов держит до 4000 токенов в 2.6 раза лучше

Цена вопроса: Q8 требует на 55% больше памяти, дает на 28% меньшую скорость, но улучшает качество на 50%. Стоит ли оно того? Для production-задач — да. Для экспериментов — нет.

Что не так с бенчмарками

BFCL и SWE-bench измеряют способность модели решать изолированные задачи. Агентная работа — это цепочка решений. Модель должна помнить, что она делала три шага назад, понимать контекст всей задачи, а не только текущего prompt'а.

SERA здесь выигрывает за счет архитектуры — у нее лучше работает долгосрочная память в рамках сессии. Devstral 2 пытается компенсировать это через цепочки мыслей (chain-of-thought), но это увеличивает количество токенов. Qwen3-Coder, судя по техническому разбору, оптимизирована под конкретные тесты, а не под реальную работу.

Практический совет: если вы выбираете модель для агентной работы, игнорируйте общие бенчмарки. Возьмите свою реальную задачу, запустите на ней модели и посмотрите, какая справляется. Разница между синтетикой и реальностью в 2026 году все еще огромна.

Скорость или качество: вечный спор

Qwen3-Coder быстрее всех — 45 токенов в секунду против 38 у Devstral 2. Но что толку от скорости, если результат нужно переделывать? SERA балансирует где-то посередине: 42 токена/с и приличное качество.

Однако есть нюанс: скорость — это не только токены в секунду. Это еще и количество итераций. SERA часто решает задачу с первой попытки. Qwen3-Coder может потребовать 3-4 попытки, что нивелирует ее преимущество в скорости.

Память и контекст: кто сколько помнит

Все модели заявлены с контекстом 128K. На практике:

  • SERA — реально работает с 90-100K, потом качество падает
  • Devstral 2 — стабильна до 80K, потом начинает "забывать" начало контекста
  • Qwen3-Coder — технически держит 128K, но понимание контекста ухудшается после 50K

Если ваша задача требует работы с большими кодовыми базами — SERA будет лучшим выбором. Для небольших скриптов подойдет и Qwen3-Coder.

Так какую модель выбрать в 2026 году?

Ответ зависит от задачи:

  • Для сложного рефакторинга и работы с legacy-кодом — SERA 34B Q8. Дорого (память), медленно, но результат близок к тому, что сделал бы senior-разработчик.
  • Для написания тестов и документации — Devstral 2 32B Q8. Хороший баланс качества и скорости, отлично справляется с шаблонными задачами.
  • Для быстрого прототипирования и простых задач — Qwen3-Coder 32B Q4. Быстро, экономно, для сложных задач не подойдет.

Мой стек на февраль 2026: SERA для production-задач, Devstral 2 для рутинной работы, Qwen3-Coder для экспериментов. И да, все в Q8, если железо позволяет. Разница в качестве того стоит.

💡
Не верьте лидербордам. Не верьте маркетинговым заявлениям. Возьмите вашу самую сложную задачу из бэклога, запустите на трех моделях и посмотрите, какая справится. Это единственный способ выбрать инструмент, который действительно будет работать, а не просто показывать красивые цифры в тестах.

Что будет дальше?

К концу 2026 года ожидаю появления специализированных агентных моделей, которые будут тренироваться не на синтетических задачах, а на реальных codebase. Архитектура внутренних представлений станет более сложной, чтобы лучше удерживать контекст. И да, кто-то наконец-то придумает бенчмарк, который измеряет не способность решить изолированную задачу, а способность работать как агент в реальной среде.

А пока — тестируйте на своих задачах. Только так найдете свой идеальный инструмент.