MMLU мертв, да здравствует реальный код

Есть забавная закономерность: чем выше модель поднимается в синтетических бенчмарках, тем хуже она работает на реальных задачах. Помните историю с IQuest-Coder-V1-40B-Instruct? 40 миллиардов параметров, громкие заявления, а на практике — уровень 7B-модели. Теперь этот цирк переехал в мир агентных моделей.

Все говорят про BFCL (Benchmark for Code Generation and Language Understanding), HumanEval, SWE-bench. А я говорю про реальные задачи из моего рабочего дня: рефакторинг legacy-кода, добавление фичи в микросервис, исправление бага, который воспроизводится раз в неделю. На этих задачах ломаются даже самые звездные модели.

Важное уточнение на февраль 2026: когда говорят про Devstral, имеют в виду Devstral 2 — последнюю версию на момент написания. Qwen3-Coder — это тоже свежая модель от Alibaba, вышедшая в конце 2025. SERA — относительно новый игрок, который громко заявил о себе именно в агентных задачах.

Методология: как мы ломали модели

Я взял три типа задач, которые регулярно встречаются в работе:

Рефакторинг монолита — преобразование старого Django-приложения в микросервисную архитектуру
Поиск и исправление race condition — асинхронный код на Python с гонками за данными
Написание интеграционного теста — сложный тест с моками, stub'ами и проверкой edge cases

Оборудование: RTX 4090, 64GB RAM. Все модели запускались через vLLM для максимальной скорости инференса. Квантования: Q4_K_M (стандартное) и Q8_0 (максимальное качество) для сравнения потерь.

1 Сервисный тест: кто понимает контекст

Первая задача — разбить монолитное Django-приложение на микросервисы. Не просто "сделай REST API", а реальный рефакторинг с сохранением бизнес-логики, миграцией базы данных и обновлением зависимостей.

Модель	Понимание контекста	Качество рефакторинга	Скорость (токен/с)	Вердикт
SERA 34B Q8	Отличное	Создала рабочие сервисы	42	Лучший результат
Devstral 2 32B Q8	Хорошее	Сделала, но с костылями	38	Второе место
Qwen3-Coder 32B Q8	Среднее	Разбила, но сломала логику	45	Быстро, но криво

SERA показала себя неожиданно хорошо. Модель действительно понимала связи между модулями, сохранила все импорты и зависимости. Devstral 2 справилась, но добавила лишние абстракции — видимо, переучилась на чистый код. Qwen3-Coder была быстрее всех, но ее результат пришлось переделывать вручную.

💡

Квантование Q8 против Q4: разница заметна только в сложных задачах. Для простого кода Q4 хватает, но если нужно сохранить тонкие зависимости и связи — только Q8. SERA в Q4 теряла понимание контекста после 2000 токенов.

2 Отладка: кто найдет needle in a haystack

Race condition в асинхронном Python — это как искать иголку в стоге сена. Я дал моделям код с тремя потенциальными гонками, одна из которых была реальной проблемой, две — ложными срабатываниями.

SERA нашла все три проблемы, но правильно идентифицировала только одну. Две других она "пофиксила" добавлением лишних lock'ов, что ухудшило производительность. Devstral 2 пропустила реальную проблему, зато нашла две ложные. Qwen3-Coder вообще предложила переписать весь код на синхронный — спасибо, очень полезно.

Интересный момент: все модели в Q8-версии работали лучше в отладке. Видимо, понимание временных зависимостей требует более точных вычислений.

3 Тестирование: кто пишет тесты, а не проверяет тривиальные случаи

Написание интеграционного теста для сложного сервиса — это проверка на вшивость. Нужно учесть моки, stub'ы, таймауты, retry-логику.

Devstral 2 справилась лучше всех. Видимо, тренировалась на датасетах с тестами. Ее тест покрыл 85% edge cases. SERA написала хороший тест, но забыла про cleanup — после запуска в БД оставались тестовые данные. Qwen3-Coder снова показала скорость: тест был готов за 30 секунд, но проверял только happy path.

Квантование Q4 vs Q8: цифры против ощущений

Все говорят "берите Q4, разницы нет". Я говорю — есть. И она заметна именно в агентных сценариях.

Метрика	SERA Q4	SERA Q8	Разница
Скорость инференса	58 токен/с	42 токен/с	-28%
Потребление памяти	22GB	34GB	+55%
Качество рефакторинга	6/10	9/10	+50%
Понимание контекста	теряет после 1500 токенов	держит до 4000 токенов	в 2.6 раза лучше

Цена вопроса: Q8 требует на 55% больше памяти, дает на 28% меньшую скорость, но улучшает качество на 50%. Стоит ли оно того? Для production-задач — да. Для экспериментов — нет.

Что не так с бенчмарками

BFCL и SWE-bench измеряют способность модели решать изолированные задачи. Агентная работа — это цепочка решений. Модель должна помнить, что она делала три шага назад, понимать контекст всей задачи, а не только текущего prompt'а.

SERA здесь выигрывает за счет архитектуры — у нее лучше работает долгосрочная память в рамках сессии. Devstral 2 пытается компенсировать это через цепочки мыслей (chain-of-thought), но это увеличивает количество токенов. Qwen3-Coder, судя по техническому разбору, оптимизирована под конкретные тесты, а не под реальную работу.

Практический совет: если вы выбираете модель для агентной работы, игнорируйте общие бенчмарки. Возьмите свою реальную задачу, запустите на ней модели и посмотрите, какая справляется. Разница между синтетикой и реальностью в 2026 году все еще огромна.

Скорость или качество: вечный спор

Qwen3-Coder быстрее всех — 45 токенов в секунду против 38 у Devstral 2. Но что толку от скорости, если результат нужно переделывать? SERA балансирует где-то посередине: 42 токена/с и приличное качество.

Однако есть нюанс: скорость — это не только токены в секунду. Это еще и количество итераций. SERA часто решает задачу с первой попытки. Qwen3-Coder может потребовать 3-4 попытки, что нивелирует ее преимущество в скорости.

Память и контекст: кто сколько помнит

Все модели заявлены с контекстом 128K. На практике:

SERA — реально работает с 90-100K, потом качество падает
Devstral 2 — стабильна до 80K, потом начинает "забывать" начало контекста
Qwen3-Coder — технически держит 128K, но понимание контекста ухудшается после 50K

Если ваша задача требует работы с большими кодовыми базами — SERA будет лучшим выбором. Для небольших скриптов подойдет и Qwen3-Coder.

Так какую модель выбрать в 2026 году?

Ответ зависит от задачи:

Для сложного рефакторинга и работы с legacy-кодом — SERA 34B Q8. Дорого (память), медленно, но результат близок к тому, что сделал бы senior-разработчик.
Для написания тестов и документации — Devstral 2 32B Q8. Хороший баланс качества и скорости, отлично справляется с шаблонными задачами.
Для быстрого прототипирования и простых задач — Qwen3-Coder 32B Q4. Быстро, экономно, для сложных задач не подойдет.

Мой стек на февраль 2026: SERA для production-задач, Devstral 2 для рутинной работы, Qwen3-Coder для экспериментов. И да, все в Q8, если железо позволяет. Разница в качестве того стоит.

💡

Не верьте лидербордам. Не верьте маркетинговым заявлениям. Возьмите вашу самую сложную задачу из бэклога, запустите на трех моделях и посмотрите, какая справится. Это единственный способ выбрать инструмент, который действительно будет работать, а не просто показывать красивые цифры в тестах.

Что будет дальше?

К концу 2026 года ожидаю появления специализированных агентных моделей, которые будут тренироваться не на синтетических задачах, а на реальных codebase. Архитектура внутренних представлений станет более сложной, чтобы лучше удерживать контекст. И да, кто-то наконец-то придумает бенчмарк, который измеряет не способность решить изолированную задачу, а способность работать как агент в реальной среде.

А пока — тестируйте на своих задачах. Только так найдете свой идеальный инструмент.

SERA, Devstral, Qwen3-Coder: чей агент реально работает, а не просто сдает тесты