MMLU мертв, да здравствует реальный код
Есть забавная закономерность: чем выше модель поднимается в синтетических бенчмарках, тем хуже она работает на реальных задачах. Помните историю с IQuest-Coder-V1-40B-Instruct? 40 миллиардов параметров, громкие заявления, а на практике — уровень 7B-модели. Теперь этот цирк переехал в мир агентных моделей.
Все говорят про BFCL (Benchmark for Code Generation and Language Understanding), HumanEval, SWE-bench. А я говорю про реальные задачи из моего рабочего дня: рефакторинг legacy-кода, добавление фичи в микросервис, исправление бага, который воспроизводится раз в неделю. На этих задачах ломаются даже самые звездные модели.
Важное уточнение на февраль 2026: когда говорят про Devstral, имеют в виду Devstral 2 — последнюю версию на момент написания. Qwen3-Coder — это тоже свежая модель от Alibaba, вышедшая в конце 2025. SERA — относительно новый игрок, который громко заявил о себе именно в агентных задачах.
Методология: как мы ломали модели
Я взял три типа задач, которые регулярно встречаются в работе:
- Рефакторинг монолита — преобразование старого Django-приложения в микросервисную архитектуру
- Поиск и исправление race condition — асинхронный код на Python с гонками за данными
- Написание интеграционного теста — сложный тест с моками, stub'ами и проверкой edge cases
Оборудование: RTX 4090, 64GB RAM. Все модели запускались через vLLM для максимальной скорости инференса. Квантования: Q4_K_M (стандартное) и Q8_0 (максимальное качество) для сравнения потерь.
1 Сервисный тест: кто понимает контекст
Первая задача — разбить монолитное Django-приложение на микросервисы. Не просто "сделай REST API", а реальный рефакторинг с сохранением бизнес-логики, миграцией базы данных и обновлением зависимостей.
| Модель | Понимание контекста | Качество рефакторинга | Скорость (токен/с) | Вердикт |
|---|---|---|---|---|
| SERA 34B Q8 | Отличное | Создала рабочие сервисы | 42 | Лучший результат |
| Devstral 2 32B Q8 | Хорошее | Сделала, но с костылями | 38 | Второе место |
| Qwen3-Coder 32B Q8 | Среднее | Разбила, но сломала логику | 45 | Быстро, но криво |
SERA показала себя неожиданно хорошо. Модель действительно понимала связи между модулями, сохранила все импорты и зависимости. Devstral 2 справилась, но добавила лишние абстракции — видимо, переучилась на чистый код. Qwen3-Coder была быстрее всех, но ее результат пришлось переделывать вручную.
2 Отладка: кто найдет needle in a haystack
Race condition в асинхронном Python — это как искать иголку в стоге сена. Я дал моделям код с тремя потенциальными гонками, одна из которых была реальной проблемой, две — ложными срабатываниями.
SERA нашла все три проблемы, но правильно идентифицировала только одну. Две других она "пофиксила" добавлением лишних lock'ов, что ухудшило производительность. Devstral 2 пропустила реальную проблему, зато нашла две ложные. Qwen3-Coder вообще предложила переписать весь код на синхронный — спасибо, очень полезно.
Интересный момент: все модели в Q8-версии работали лучше в отладке. Видимо, понимание временных зависимостей требует более точных вычислений.
3 Тестирование: кто пишет тесты, а не проверяет тривиальные случаи
Написание интеграционного теста для сложного сервиса — это проверка на вшивость. Нужно учесть моки, stub'ы, таймауты, retry-логику.
Devstral 2 справилась лучше всех. Видимо, тренировалась на датасетах с тестами. Ее тест покрыл 85% edge cases. SERA написала хороший тест, но забыла про cleanup — после запуска в БД оставались тестовые данные. Qwen3-Coder снова показала скорость: тест был готов за 30 секунд, но проверял только happy path.
Квантование Q4 vs Q8: цифры против ощущений
Все говорят "берите Q4, разницы нет". Я говорю — есть. И она заметна именно в агентных сценариях.
| Метрика | SERA Q4 | SERA Q8 | Разница |
|---|---|---|---|
| Скорость инференса | 58 токен/с | 42 токен/с | -28% |
| Потребление памяти | 22GB | 34GB | +55% |
| Качество рефакторинга | 6/10 | 9/10 | +50% |
| Понимание контекста | теряет после 1500 токенов | держит до 4000 токенов | в 2.6 раза лучше |
Цена вопроса: Q8 требует на 55% больше памяти, дает на 28% меньшую скорость, но улучшает качество на 50%. Стоит ли оно того? Для production-задач — да. Для экспериментов — нет.
Что не так с бенчмарками
BFCL и SWE-bench измеряют способность модели решать изолированные задачи. Агентная работа — это цепочка решений. Модель должна помнить, что она делала три шага назад, понимать контекст всей задачи, а не только текущего prompt'а.
SERA здесь выигрывает за счет архитектуры — у нее лучше работает долгосрочная память в рамках сессии. Devstral 2 пытается компенсировать это через цепочки мыслей (chain-of-thought), но это увеличивает количество токенов. Qwen3-Coder, судя по техническому разбору, оптимизирована под конкретные тесты, а не под реальную работу.
Практический совет: если вы выбираете модель для агентной работы, игнорируйте общие бенчмарки. Возьмите свою реальную задачу, запустите на ней модели и посмотрите, какая справляется. Разница между синтетикой и реальностью в 2026 году все еще огромна.
Скорость или качество: вечный спор
Qwen3-Coder быстрее всех — 45 токенов в секунду против 38 у Devstral 2. Но что толку от скорости, если результат нужно переделывать? SERA балансирует где-то посередине: 42 токена/с и приличное качество.
Однако есть нюанс: скорость — это не только токены в секунду. Это еще и количество итераций. SERA часто решает задачу с первой попытки. Qwen3-Coder может потребовать 3-4 попытки, что нивелирует ее преимущество в скорости.
Память и контекст: кто сколько помнит
Все модели заявлены с контекстом 128K. На практике:
- SERA — реально работает с 90-100K, потом качество падает
- Devstral 2 — стабильна до 80K, потом начинает "забывать" начало контекста
- Qwen3-Coder — технически держит 128K, но понимание контекста ухудшается после 50K
Если ваша задача требует работы с большими кодовыми базами — SERA будет лучшим выбором. Для небольших скриптов подойдет и Qwen3-Coder.
Так какую модель выбрать в 2026 году?
Ответ зависит от задачи:
- Для сложного рефакторинга и работы с legacy-кодом — SERA 34B Q8. Дорого (память), медленно, но результат близок к тому, что сделал бы senior-разработчик.
- Для написания тестов и документации — Devstral 2 32B Q8. Хороший баланс качества и скорости, отлично справляется с шаблонными задачами.
- Для быстрого прототипирования и простых задач — Qwen3-Coder 32B Q4. Быстро, экономно, для сложных задач не подойдет.
Мой стек на февраль 2026: SERA для production-задач, Devstral 2 для рутинной работы, Qwen3-Coder для экспериментов. И да, все в Q8, если железо позволяет. Разница в качестве того стоит.
Что будет дальше?
К концу 2026 года ожидаю появления специализированных агентных моделей, которые будут тренироваться не на синтетических задачах, а на реальных codebase. Архитектура внутренних представлений станет более сложной, чтобы лучше удерживать контекст. И да, кто-то наконец-то придумает бенчмарк, который измеряет не способность решить изолированную задачу, а способность работать как агент в реальной среде.
А пока — тестируйте на своих задачах. Только так найдете свой идеальный инструмент.