Когда я впервые запустил Qwen 3.7, я уже морально готовился к очередной «китайской поделке» — клёвой по цифрам, но сырой в реальном боевом юзаньи. DeepSeek V4 научил меня относиться к азиатским open-source моделям с осторожностью: бенчмарки бенчмарками, а живые диалоги — боль. Но Qwen 3.7 от Alibaba Cloud выкинул фокус.
Модель вышла тихо, без фанфар. Никаких «мы победили GPT-5» на баннерах. Просто улучшенный Qwen3 с поддержкой 1M токенов контекста, новой архитектурой смешанных экспертов (MoE) и встроенным цитированием. Но давайте по порядку.
Важно: на 15 июня 2026 года Qwen 3.7 доступна в версиях 7B, 32B и 72B (полная). Последняя требует 160 ГБ VRAM в FP16, но есть квантизации от сообщества. Версия 32B — оптимальный компромисс между качеством и железом.
Чем Qwen 3.7 цепляет?
Первое, что бросается в глаза — агентность. Модель из коробки умеет вызывать функции, работать с инструментами (поиск, калькулятор, код), и делает это без танцев с бубном. Я скормил ей задачу: «спланируй поездку в Пекин на три дня, учти погоду, визовые требования и стоимость билетов — используй реальные данные из сети». Qwen 3.7 сам запустил поиск, сверил несколько источников, выдал таблицу с ценами и даже добавил цитаты на погодные сайты. Не идеально, но для открытой модели — прорыв.
Второе — качество генерации кода. Alibaba явно натаскивали модель на Python, JavaScript и Go. В тесте SWE-bench Verified — 74,2% (средняя между DeepSeek V4 и GPT-5). Но важнее другое: модель реже галлюцинирует API. Вы не увидите вымышленных методов из pandas или requests. Если уж что-то придумает — сразу честно скажет «я не уверен, проверь документацию». Для кодера это золото.
Третье — цитирование. Если вы читали нашу статью про RAG и цитирование, то знаете, что Qwen3 уже умел вставлять ссылки на источники. В 3.7 механизм доработали: модель теперь привязывает каждый факт к конкретному чанку из векторной базы, а не просто ставит номер сноски. Это критично для медицинских или юридических консультаций. Правда, safeguards слабоваты — Alibaba решила не цензурировать ответы так жёстко, как делают с западными моделями. На практике это значит, что придётся ставить дополнительный фильтр, если используете модель для работы с детьми или в строго регулируемых отраслях.
Дуэль без галстуков: Qwen 3.7 vs DeepSeek V4 vs ChatGPT
Сравнивать модели напрямую — дело неблагодарное. У каждой своя экосистема, свой «характер». Но мы попробуем. В качестве ChatGPT берём GPT-5 (июнь 2026), как самую популярную проприетарную модель. DeepSeek V4 — главный китайский опенсорсный конкурент.
| Критерий | Qwen 3.7 (32B) | DeepSeek V4 (32B) | ChatGPT (GPT-5) |
|---|---|---|---|
| SWE-bench Verified | 74,2% | 78,4% | 72,1% |
| MMLU-Pro | 82,5% | 79,2% | 90,5% |
| Контекстное окно | 1M токенов | 1M токенов | 256K токенов |
| Цитирование | Встроенное, точное | Частичное (только для RAG) | Есть, но не для всех ответов |
| Стоимость API (1K токенов) | $0.03 | $0.02 | $0.12 |
| Локальный запуск (32B) | 32 ГБ VRAM (квант.) | 32 ГБ VRAM (квант.) | Недоступна |
Цифры не врут: DeepSeek V4 по-прежнему король кода, а GPT-5 — король общей эрудиции. Но Qwen 3.7 занимает интересную нишу — баланс. Она не проваливается ни в коде, ни в фактах, и при этом предлагает фишки, которых нет у других: продвинутое цитирование, работа с длинным контекстом и агентное поведение из коробки.
Предостережение: не верьте цифрам MMLU-Pro. Qwen 3.7 показала 82,5%, но я заметил, что в тесте она «плавает» на вопросах про мировую историю XX века. Зато блестяще отвечает на technical deep-dive вопросы. Видимо, китайские инженеры сместили акцент тренировочных данных в сторону точных наук.
Кому стоит (и не стоит) переходить на Qwen 3.7
Берите Qwen 3.7, если:
- Вы строите RAG-систему с требованиями к цитированию — модель сама ставит ссылки на чанки из вашей базы знаний. Идеально для deep research пайплайнов.
- Вам нужен длинный контекст — 1M токенов позволяет запихнуть в модель всю кодовую базу или документацию. DeepSeek V4 тоже умеет, но Qwen 3.7 точнее удерживает внимание на релевантных частях (специальная техника YaRN).
- Вы работаете с агентами — Qwen 3.7 умеет вызывать функции, планировать шаги и возвращать структурированный JSON. Настройка минимальна.
- Вы хотите сэкономить на API, но не готовы жертвовать качеством. $0.03 за 1K токенов — это в 4 раза дешевле ChatGPT, а качество для большинства бизнес-задач сопоставимо. Если вам нужен стабильный доступ к разным моделям (включая DeepSeek и ChatGPT) через единый интерфейс, посмотрите на AITunnel — агрегатор API-ключей без лишних заморочек.
Пропустите Qwen 3.7, если:
- Вам нужно лучшее качество генерации кода — берите DeepSeek V4. Он всё ещё на 4% точнее на SWE-bench. Но учтите: DeepSeek V4 тяжелее в настройке для длинного контекста (потребляет больше памяти).
- Вы пишете креативные тексты или строите общий AI-ассистент для «болтовни» — ChatGPT (GPT-5) и даже Qwen3-Coder-Next справятся лучше. Qwen 3.7 слишком рационален, ему не хватает «души».
- У вас слабое железо. 32B версия даже в INT4 требует ~20 ГБ VRAM. Для 7B версии хватит 8 ГБ, но качество заметно падает — проигрывает даже Qwen3.6-27B на некоторых тестах.
Моё субъективное резюме
Qwen 3.7 — это модель «для дела». Она не пытается быть умнее всех и не брешет на бенчмарках. Alibaba сделала ставку на практичность: встроенный поиск, цитирование, вызов функций. Всё это работает не идеально, но достаточно, чтобы закрыть 80% задач enterprise-класса.
Лично я перешёл на Qwen 3.7 для своего RAG-бота по анализу контрактов. Цитирование экономит мне часы проверки фактов. Но когда нужно быстро набросать прототип на React — всё ещё лезу к DeepSeek V4. А для того чтобы просто поболтать о смысле жизни — у меня есть ChatGPT (и он знает, что я его не брошу).
Ожидайте, что через пару месяцев выйдет DeepSeek V3.2 с доработанным цитированием, и тогда выбор станет ещё сложнее. Но на июнь 2026 года Qwen 3.7 — пожалуй, самый взвешенный вариант для тех, кто не хочет выбирать между ценой, качеством и функциональностью.