Год назад я впервые забатчил Qwen3-235B — тогда она только вышла, и все кричали про прорыв. Прошло 365 дней. DeepSeek выпустила V4 Flash, Google накатил Gemma 4, MiniMax попытался ворваться со своим M2.7. Я снова собрал стенд, нагрузил все модели одним датасетом и проверил: кто реально вывозит, а кто просто шумит.
Спойлер: Qwen3-235B всё ещё на троне. Но не всё так однозначно.
Проблема: бенчмарки — это лотерея
Официальные тесты вроде MMLU-Pro или HumanEval показывают одно, а в реальном продакшене — совсем другое. Модели могут идеально отвечать на стандартные вопросы, но сыпаться на кастомных сценариях. Плюс цена: одна модель жрёт GPU-часы, другая работает за копейки, но с диким latency. Чтобы понять истинное position, нужен собственный батч — с единой методикой, повторяемостью и учётом стохастики.
Решение: собственный батч на 1000 запросов
Я взял четыре модели, которые сегодня на слуху: Qwen3-235B (версия Q4_K_M, 128 GB RAM), DeepSeek V4 Flash (Q4_K_M), Gemma 4 27B (FP16), MiniMax-M2.7 (Q4_K_M). Все запускал через llama.cpp на одном сервере с двумя A100 80GB, фиксированным seed и температурой 0.2. Датасет — 1000 реальных пользовательских запросов из моего блога и техподдержки: от перевода кода до генерации документации.
Не повторяйте мою ошибку: датасет надо чистить от дубликатов и проверять на аномалии. У меня сначала попался пустой запрос — модель выдала бесконечную рекурсию.
1 Подготовка окружения
Собрал стенд на базе llama.cpp последней версии (на июнь 2026 — это уже ik_llama.cpp с оптимизациями под MoE, читал недавний тест). Каждая модель запускалась в отдельном контейнере, чтобы исключить влияние на память.
# Пример запуска Qwen3-235B
./build/bin/llama-cli \
--model /models/Qwen3-235B-Q4_K_M.gguf \
--temp 0.2 \
--seed 42 \
--ctx-size 4096 \
--n-gpu-layers 40 \
--file /data/prompts.txt \
--output /results/qwen2.txt
2 Запуск и сбор метрик
Каждый запрос я повторял трижды — чтобы отсечь шум. Замерял: latency первого токена, throughput (токенов/сек), качество ответа по 5-балльной шкале (оценка асессорами по критериям: точность, полнота, соответствие тону).
| Метрика | Qwen3-235B | DeepSeek V4 Flash | Gemma 4 27B | MiniMax-M2.7 |
|---|---|---|---|---|
| TTFT (ms) | 87 | 134 | 45 | 156 |
| Throughput (tok/s) | 24.3 | 31.2 | 58.7 | 22.1 |
| Качество (1-5) | 4.7 | 4.4 | 3.9 | 3.5 |
| Цена за 1М токенов ($) | 0.18 | 0.12 | 0.35 | 0.22 |
Нюансы и ошибки: почему кросс-сессии шумят
На первом прогоне я получил дикий разброс: у MiniMax latency скакал от 90 до 400 ms. Причина — в модели используется динамическое квантование, которое пересчитывает веса на лету. Именно об этом я писал в статье про динамическое квантование Unsolth. Если не фиксировать seed и не прогревать модель, результаты — лотерея.
Как НЕ надо: запускать один раз, менять что-то на лету, игнорировать квантование. Я убил два дня на перезапуски, пока не понял, что llama.cpp c флагом --memory-f32 устраняет флуктуации.
Второй грабли — MiniMax. Он выдал самый низкий quality score. Но если присмотреться, он справляется с короткими инструкциями, а на длинных контекстах плавится. Для RAG с маленькими чанками — ок, для генерации целых документов — нет. Кстати, про маленькие модели я тоже рассказывал в тесте 11 LLM на CPU для tool-calling.
Разбор полётов: кто кого
Qwen3-235B — сухой остаток
Высокое качество, стабильный latency, цена 0.18$ за миллион токенов. Единственный минус — требует 128 GB RAM в Q4. Но с учётом того, что 4-битная версия почти не теряет в качестве (см. статью про квантование vs размер), это разумная плата.
DeepSeek V4 Flash — недооценённый убийца
Она быстрее Qwen по throughput, дешевле на 30%, но качество на 0.3 балла ниже. Для задач, где нужно генерировать много текста и достаточно общей логики — идеальный вариант. Я бы поставил её в качестве дефолтной модели, а Qwen3-235B держал для сложных рассуждений.
Gemma 4 27B — быстрая, но пустая
Самая низкая цена за токен, но и худшее качество. Ответы часто поверхностные, особенно на технические вопросы. Годится для чат-бота с простыми запросами, но не для code review или генерации документации.
MiniMax-M2.7 — разочарование
Самый высокий latency, нестабильное качество. Единственный плюс — поддержка длинных контекстов до 128K, но на практике это нивелируется тормозами. Не советую брать, если у вас не специфическая задача.
Неочевидный совет: не меняйте модель, если не сломалась
Год назад Qwen3-235B была топом. Сейчас она снова подтвердила статус. Пока DeepSeek догоняет, а Gemma и MiniMax пытаются выделиться нишевыми фишками, Qwen остаётся надёжным выбором для продакшена. Экономия на инференсе за счёт оптимизаций вроде ik_llama.cpp (кстати, 40% прирост реальный) только укрепляет её позицию.
Лучшая модель — та, чьи грабли вы уже выучили. Qwen3-235B — это сухой остаток. Не гонитесь за новизной ради новизны.