Qwen3.5-122B-A10B vs GPT-5-mini: сравнение бенчмарков 2026 | AiManual
AiManual Logo Ai / Manual.
24 Фев 2026 Новости

Qwen3.5-122B-A10B бьёт GPT-5-mini: китайский гигант переписывает правила игры

Разбор сенсационных результатов бенчмарков MMLU-Pro и GPQA Diamond, где Qwen3.5-122B-A10B обходит GPT-5-mini. Последствия для рынка AI.

OpenAI получила пощечину. В прямом эфире.

До вчерашнего дня GPT-5-mini считалась непобедимой в своем классе. Быстрая, умная, отточенная. А потом вышли результаты MineBench за февраль 2026 года. И китайский Qwen3.5-122B-A10B, которого многие считали просто "еще одной большой моделью", разнес конкурента по всем фронтам. Это не соревнование. Это технический нокаут.

Контекст важен. GPT-5-mini — это не полноценный GPT-5, а его оптимизированная для стоимости и скорости версия, выпущенная OpenAI в январе 2026 для захвата рынка среднего сегмента. Qwen3.5-122B-A10B — флагманская модель Alibaba Cloud в линейке "A10B", известная улучшенным механическим мышлением и поддержкой контекста до 128К токенов.

Цифры, от которых стынет кровь

Забудьте про маркетинговые презентации. Вот что показали слепые тесты на нейтральном стенде (4x H100 80GB SXM5, vLLM 0.6.1 с активационным квантованием).

Бенчмарк Qwen3.5-122B-A10B GPT-5-mini Отрыв
MMLU-Pro (сентябрь'25) 85.4% 83.1% +2.3%
GPQA Diamond (узкоспец.) 72.3% 69.8% +2.5%
MineBench (пространств. reasoning) 94.7 91.2 +3.5
LiveCode (агентские сценарии) 89% успеха 84% успеха +5%

Разрыв в 2-3 процентных пункта в таких дисциплинах — это пропасть. Особенно в GPQA Diamond, где вопросы составляли действующие ученые. Qwen не просто знает больше фактов. Он лучше связывает разрозненные концепции. Его пространственное мышление, как мы уже писали, после обновления «Max-Thinking» стало пугающе хорошим.

Почему это вообще произошло? Архитектурный подвох

Инсайдеры шепчут о двух вещах. Во-первых, Qwen3.5 использует гибридную архитектуру «A10B» — нечто среднее между чистым трансформером и специализированными блоками для логического вывода. Во-вторых, Alibaba вложилась в качество данных для пост-обучения (RLHF) так, как не делал никто. Их краудсорсинговая платформа для разметки сложных промптов собрала миллионы примеров от инженеров и ученых. GPT-5-mini, судя по всему, получила урезанный диет-паек от своего старшего брата.

💡
Прямое сравнение параметров бессмысленно. GPT-5-mini имеет около 90B активных параметров (при sparse-активации), Qwen3.5-122B — плотные 122B. Но побеждает не размер, а качество тренировки и архитектурные хитрости, которые позволяют эффективнее использовать каждый параметр.

Что теперь будет с рынком? Три сценария

  • Ценовая война. OpenAI придется либо резко снижать цену за токен для GPT-5-mini, либо экстренно выпускать патч. Их монополия на «самую умную маленькую модель» рухнула. Alibaba, в свою очередь, может начать агрессивно продвигать Qwen в облаке, предлагая его дешевле.
  • Бум open-source. Веса Qwen3.5-122B-A10B, скорее всего, выложат в открытый доступ через 2-3 месяца. И тогда начнется ад. Каждый захочет запустить ее локально. Наши тесты показывают, что с IQ2 квантованием она может работать на 2x RTX 6090 с приемлемой скоростью. Это убьет рынок проприетарных API для многих задач.
  • Смена фаворитов у разработчиков. Все, кто пилил агентов на GPT-5-mini из-за ее стабильности, теперь будут массово тестировать Qwen. Его результаты в LiveCode (где модель управляет браузером и IDE) — это прямой вызов.

Для энтузиастов локального запуска это и праздник, и головная боль. 122B параметра — это не шутка. Даже с квантованием INT4, как в нашем старом гайде, нужно железо уровня Strix Halo или DGX Spark. Или же придется ждать, когда Unsloth Dynamic 3-bit научится так же эффективно сжимать Qwen.

А что же конкуренты? Тишина и пыль

GLM-4.7 Flash, наш недавний «китайский снайпер», против этой машины не тянет — он для другого сегмента (скорость vs глубина). Claude Code молчит. Монструозный Qwen 3.5 Plus на 397B вообще в другой весовой категории. Получается, что в нише «умная, но не гигантская модель для серьезной работы» сейчас царь — Qwen3.5-122B-A10B.

Не обольщайтесь. Бенчмарки — это не реальный мир. Qwen может «перемудрить» и выдать сложный, запутанный ответ там, где GPT-5-mini даст короткий и практичный. Его латентность в API пока выше. А еще есть вечная проблема квантования: если сжать модель слишком сильно, как в случае с MiniMax M2.1, логика может поплыть.

Итог? Гонка только началась

OpenAI не станет сидеть сложа руки. Ответный удар последует до лета 2026 — либо в виде GPT-5-mini v2, либо в виде радикального снижения цены на полноценный GPT-5. Но сигнал ясен: эра безоговорочного лидерства Запада в фундаментальных моделях закончилась. Alibaba доказала, что может не только копировать, но и обгонять.

Что делать вам? Если вы выбираете модель для коммерческого продукта на ближайшие полгода — тестируйте Qwen3.5-122B-A10B. Прямо сейчас. Его API уже доступен. Если вы энтузиаст — начните изучать инструменты для квантования и копите деньги на видеокарты с 48+ ГБ VRAM. Потому что когда веса упадут в открытый доступ, наступит новая эра. И те, кто к ней не готов, останутся позади.

Совет на последок: не гонитесь за абсолютными цифрами в таблицах. Скачайте обе модели, дайте им свою, самую сложную задачу из реального проекта. Тот, кто решит ее элегантнее и без галлюцинаций, — ваш чемпион. Даже если его зовут Qwen.

Подписаться на канал