OpenAI получила пощечину. В прямом эфире.
До вчерашнего дня GPT-5-mini считалась непобедимой в своем классе. Быстрая, умная, отточенная. А потом вышли результаты MineBench за февраль 2026 года. И китайский Qwen3.5-122B-A10B, которого многие считали просто "еще одной большой моделью", разнес конкурента по всем фронтам. Это не соревнование. Это технический нокаут.
Контекст важен. GPT-5-mini — это не полноценный GPT-5, а его оптимизированная для стоимости и скорости версия, выпущенная OpenAI в январе 2026 для захвата рынка среднего сегмента. Qwen3.5-122B-A10B — флагманская модель Alibaba Cloud в линейке "A10B", известная улучшенным механическим мышлением и поддержкой контекста до 128К токенов.
Цифры, от которых стынет кровь
Забудьте про маркетинговые презентации. Вот что показали слепые тесты на нейтральном стенде (4x H100 80GB SXM5, vLLM 0.6.1 с активационным квантованием).
| Бенчмарк | Qwen3.5-122B-A10B | GPT-5-mini | Отрыв |
|---|---|---|---|
| MMLU-Pro (сентябрь'25) | 85.4% | 83.1% | +2.3% |
| GPQA Diamond (узкоспец.) | 72.3% | 69.8% | +2.5% |
| MineBench (пространств. reasoning) | 94.7 | 91.2 | +3.5 |
| LiveCode (агентские сценарии) | 89% успеха | 84% успеха | +5% |
Разрыв в 2-3 процентных пункта в таких дисциплинах — это пропасть. Особенно в GPQA Diamond, где вопросы составляли действующие ученые. Qwen не просто знает больше фактов. Он лучше связывает разрозненные концепции. Его пространственное мышление, как мы уже писали, после обновления «Max-Thinking» стало пугающе хорошим.
Почему это вообще произошло? Архитектурный подвох
Инсайдеры шепчут о двух вещах. Во-первых, Qwen3.5 использует гибридную архитектуру «A10B» — нечто среднее между чистым трансформером и специализированными блоками для логического вывода. Во-вторых, Alibaba вложилась в качество данных для пост-обучения (RLHF) так, как не делал никто. Их краудсорсинговая платформа для разметки сложных промптов собрала миллионы примеров от инженеров и ученых. GPT-5-mini, судя по всему, получила урезанный диет-паек от своего старшего брата.
Что теперь будет с рынком? Три сценария
- Ценовая война. OpenAI придется либо резко снижать цену за токен для GPT-5-mini, либо экстренно выпускать патч. Их монополия на «самую умную маленькую модель» рухнула. Alibaba, в свою очередь, может начать агрессивно продвигать Qwen в облаке, предлагая его дешевле.
- Бум open-source. Веса Qwen3.5-122B-A10B, скорее всего, выложат в открытый доступ через 2-3 месяца. И тогда начнется ад. Каждый захочет запустить ее локально. Наши тесты показывают, что с IQ2 квантованием она может работать на 2x RTX 6090 с приемлемой скоростью. Это убьет рынок проприетарных API для многих задач.
- Смена фаворитов у разработчиков. Все, кто пилил агентов на GPT-5-mini из-за ее стабильности, теперь будут массово тестировать Qwen. Его результаты в LiveCode (где модель управляет браузером и IDE) — это прямой вызов.
Для энтузиастов локального запуска это и праздник, и головная боль. 122B параметра — это не шутка. Даже с квантованием INT4, как в нашем старом гайде, нужно железо уровня Strix Halo или DGX Spark. Или же придется ждать, когда Unsloth Dynamic 3-bit научится так же эффективно сжимать Qwen.
А что же конкуренты? Тишина и пыль
GLM-4.7 Flash, наш недавний «китайский снайпер», против этой машины не тянет — он для другого сегмента (скорость vs глубина). Claude Code молчит. Монструозный Qwen 3.5 Plus на 397B вообще в другой весовой категории. Получается, что в нише «умная, но не гигантская модель для серьезной работы» сейчас царь — Qwen3.5-122B-A10B.
Не обольщайтесь. Бенчмарки — это не реальный мир. Qwen может «перемудрить» и выдать сложный, запутанный ответ там, где GPT-5-mini даст короткий и практичный. Его латентность в API пока выше. А еще есть вечная проблема квантования: если сжать модель слишком сильно, как в случае с MiniMax M2.1, логика может поплыть.
Итог? Гонка только началась
OpenAI не станет сидеть сложа руки. Ответный удар последует до лета 2026 — либо в виде GPT-5-mini v2, либо в виде радикального снижения цены на полноценный GPT-5. Но сигнал ясен: эра безоговорочного лидерства Запада в фундаментальных моделях закончилась. Alibaba доказала, что может не только копировать, но и обгонять.
Что делать вам? Если вы выбираете модель для коммерческого продукта на ближайшие полгода — тестируйте Qwen3.5-122B-A10B. Прямо сейчас. Его API уже доступен. Если вы энтузиаст — начните изучать инструменты для квантования и копите деньги на видеокарты с 48+ ГБ VRAM. Потому что когда веса упадут в открытый доступ, наступит новая эра. И те, кто к ней не готов, останутся позади.
Совет на последок: не гонитесь за абсолютными цифрами в таблицах. Скачайте обе модели, дайте им свою, самую сложную задачу из реального проекта. Тот, кто решит ее элегантнее и без галлюцинаций, — ваш чемпион. Даже если его зовут Qwen.