Qwen 3.7: обзор, сравнение с DeepSeek и ChatGPT, кому подойдет | AiManual
AiManual Logo Ai / Manual.
15 Июн 2026 Новости

Qwen 3.7: китайский ответ DeepSeek и ChatGPT — кто кого?

Разбираем Qwen 3.7 от Alibaba: возможности, сильные стороны, сравнение с DeepSeek V4 и GPT-5. Кому стоит мигрировать, а кому лучше остаться?

Реклама
cliv1

Когда я впервые запустил Qwen 3.7, я уже морально готовился к очередной «китайской поделке» — клёвой по цифрам, но сырой в реальном боевом юзаньи. DeepSeek V4 научил меня относиться к азиатским open-source моделям с осторожностью: бенчмарки бенчмарками, а живые диалоги — боль. Но Qwen 3.7 от Alibaba Cloud выкинул фокус.

Модель вышла тихо, без фанфар. Никаких «мы победили GPT-5» на баннерах. Просто улучшенный Qwen3 с поддержкой 1M токенов контекста, новой архитектурой смешанных экспертов (MoE) и встроенным цитированием. Но давайте по порядку.

Важно: на 15 июня 2026 года Qwen 3.7 доступна в версиях 7B, 32B и 72B (полная). Последняя требует 160 ГБ VRAM в FP16, но есть квантизации от сообщества. Версия 32B — оптимальный компромисс между качеством и железом.

Чем Qwen 3.7 цепляет?

Первое, что бросается в глаза — агентность. Модель из коробки умеет вызывать функции, работать с инструментами (поиск, калькулятор, код), и делает это без танцев с бубном. Я скормил ей задачу: «спланируй поездку в Пекин на три дня, учти погоду, визовые требования и стоимость билетов — используй реальные данные из сети». Qwen 3.7 сам запустил поиск, сверил несколько источников, выдал таблицу с ценами и даже добавил цитаты на погодные сайты. Не идеально, но для открытой модели — прорыв.

Второе — качество генерации кода. Alibaba явно натаскивали модель на Python, JavaScript и Go. В тесте SWE-bench Verified — 74,2% (средняя между DeepSeek V4 и GPT-5). Но важнее другое: модель реже галлюцинирует API. Вы не увидите вымышленных методов из pandas или requests. Если уж что-то придумает — сразу честно скажет «я не уверен, проверь документацию». Для кодера это золото.

Третье — цитирование. Если вы читали нашу статью про RAG и цитирование, то знаете, что Qwen3 уже умел вставлять ссылки на источники. В 3.7 механизм доработали: модель теперь привязывает каждый факт к конкретному чанку из векторной базы, а не просто ставит номер сноски. Это критично для медицинских или юридических консультаций. Правда, safeguards слабоваты — Alibaba решила не цензурировать ответы так жёстко, как делают с западными моделями. На практике это значит, что придётся ставить дополнительный фильтр, если используете модель для работы с детьми или в строго регулируемых отраслях.

Дуэль без галстуков: Qwen 3.7 vs DeepSeek V4 vs ChatGPT

Сравнивать модели напрямую — дело неблагодарное. У каждой своя экосистема, свой «характер». Но мы попробуем. В качестве ChatGPT берём GPT-5 (июнь 2026), как самую популярную проприетарную модель. DeepSeek V4 — главный китайский опенсорсный конкурент.

КритерийQwen 3.7 (32B)DeepSeek V4 (32B)ChatGPT (GPT-5)
SWE-bench Verified74,2%78,4%72,1%
MMLU-Pro82,5%79,2%90,5%
Контекстное окно1M токенов1M токенов256K токенов
ЦитированиеВстроенное, точноеЧастичное (только для RAG)Есть, но не для всех ответов
Стоимость API (1K токенов)$0.03$0.02$0.12
Локальный запуск (32B)32 ГБ VRAM (квант.)32 ГБ VRAM (квант.)Недоступна

Цифры не врут: DeepSeek V4 по-прежнему король кода, а GPT-5 — король общей эрудиции. Но Qwen 3.7 занимает интересную нишу — баланс. Она не проваливается ни в коде, ни в фактах, и при этом предлагает фишки, которых нет у других: продвинутое цитирование, работа с длинным контекстом и агентное поведение из коробки.

Предостережение: не верьте цифрам MMLU-Pro. Qwen 3.7 показала 82,5%, но я заметил, что в тесте она «плавает» на вопросах про мировую историю XX века. Зато блестяще отвечает на technical deep-dive вопросы. Видимо, китайские инженеры сместили акцент тренировочных данных в сторону точных наук.

Кому стоит (и не стоит) переходить на Qwen 3.7

Берите Qwen 3.7, если:

  • Вы строите RAG-систему с требованиями к цитированию — модель сама ставит ссылки на чанки из вашей базы знаний. Идеально для deep research пайплайнов.
  • Вам нужен длинный контекст — 1M токенов позволяет запихнуть в модель всю кодовую базу или документацию. DeepSeek V4 тоже умеет, но Qwen 3.7 точнее удерживает внимание на релевантных частях (специальная техника YaRN).
  • Вы работаете с агентами — Qwen 3.7 умеет вызывать функции, планировать шаги и возвращать структурированный JSON. Настройка минимальна.
  • Вы хотите сэкономить на API, но не готовы жертвовать качеством. $0.03 за 1K токенов — это в 4 раза дешевле ChatGPT, а качество для большинства бизнес-задач сопоставимо. Если вам нужен стабильный доступ к разным моделям (включая DeepSeek и ChatGPT) через единый интерфейс, посмотрите на AITunnel — агрегатор API-ключей без лишних заморочек.

Пропустите Qwen 3.7, если:

  • Вам нужно лучшее качество генерации кода — берите DeepSeek V4. Он всё ещё на 4% точнее на SWE-bench. Но учтите: DeepSeek V4 тяжелее в настройке для длинного контекста (потребляет больше памяти).
  • Вы пишете креативные тексты или строите общий AI-ассистент для «болтовни» — ChatGPT (GPT-5) и даже Qwen3-Coder-Next справятся лучше. Qwen 3.7 слишком рационален, ему не хватает «души».
  • У вас слабое железо. 32B версия даже в INT4 требует ~20 ГБ VRAM. Для 7B версии хватит 8 ГБ, но качество заметно падает — проигрывает даже Qwen3.6-27B на некоторых тестах.

Моё субъективное резюме

Qwen 3.7 — это модель «для дела». Она не пытается быть умнее всех и не брешет на бенчмарках. Alibaba сделала ставку на практичность: встроенный поиск, цитирование, вызов функций. Всё это работает не идеально, но достаточно, чтобы закрыть 80% задач enterprise-класса.

Лично я перешёл на Qwen 3.7 для своего RAG-бота по анализу контрактов. Цитирование экономит мне часы проверки фактов. Но когда нужно быстро набросать прототип на React — всё ещё лезу к DeepSeek V4. А для того чтобы просто поболтать о смысле жизни — у меня есть ChatGPT (и он знает, что я его не брошу).

Ожидайте, что через пару месяцев выйдет DeepSeek V3.2 с доработанным цитированием, и тогда выбор станет ещё сложнее. Но на июнь 2026 года Qwen 3.7 — пожалуй, самый взвешенный вариант для тех, кто не хочет выбирать между ценой, качеством и функциональностью.

Подписаться на канал