Публикация AiManual

Тест моделей LLM: Qwen3-235B остаётся лучшей по цене/качеству спустя год — подробности батча

Провёл собственный батч-тест четырёх LLM: Qwen3-235B, DeepSeek V4 Flash, Gemma 4, MiniMax. Результаты: Qwen3-235B держит лидерство спустя год. Разбор методики,

5 мин чтения 11.06.2026

Коротко

Что будет в материале

01
Проблема: бенчмарки — это лотерея
02
Решение: собственный батч на 1000 запросов
03
Нюансы и ошибки: почему кросс-сессии шумят
04
Разбор полётов: кто кого

Год назад я впервые забатчил Qwen3-235B — тогда она только вышла, и все кричали про прорыв. Прошло 365 дней. DeepSeek выпустила V4 Flash, Google накатил Gemma 4, MiniMax попытался ворваться со своим M2.7. Я снова собрал стенд, нагрузил все модели одним датасетом и проверил: кто реально вывозит, а кто просто шумит.

Спойлер: Qwen3-235B всё ещё на троне. Но не всё так однозначно.

Проблема: бенчмарки — это лотерея

Официальные тесты вроде MMLU-Pro или HumanEval показывают одно, а в реальном продакшене — совсем другое. Модели могут идеально отвечать на стандартные вопросы, но сыпаться на кастомных сценариях. Плюс цена: одна модель жрёт GPU-часы, другая работает за копейки, но с диким latency. Чтобы понять истинное position, нужен собственный батч — с единой методикой, повторяемостью и учётом стохастики.

💡

Год назад я уже писал про бенчмарки LLM: гонка за качеством закончилась. Теперь действительно считают секунды и доллары. Мой тест — логичное продолжение.

Решение: собственный батч на 1000 запросов

Я взял четыре модели, которые сегодня на слуху: Qwen3-235B (версия Q4_K_M, 128 GB RAM), DeepSeek V4 Flash (Q4_K_M), Gemma 4 27B (FP16), MiniMax-M2.7 (Q4_K_M). Все запускал через llama.cpp на одном сервере с двумя A100 80GB, фиксированным seed и температурой 0.2. Датасет — 1000 реальных пользовательских запросов из моего блога и техподдержки: от перевода кода до генерации документации.

Не повторяйте мою ошибку: датасет надо чистить от дубликатов и проверять на аномалии. У меня сначала попался пустой запрос — модель выдала бесконечную рекурсию.

1 Подготовка окружения

Собрал стенд на базе llama.cpp последней версии (на июнь 2026 — это уже ik_llama.cpp с оптимизациями под MoE, читал недавний тест). Каждая модель запускалась в отдельном контейнере, чтобы исключить влияние на память.

# Пример запуска Qwen3-235B
./build/bin/llama-cli \
  --model /models/Qwen3-235B-Q4_K_M.gguf \
  --temp 0.2 \
  --seed 42 \
  --ctx-size 4096 \
  --n-gpu-layers 40 \
  --file /data/prompts.txt \
  --output /results/qwen2.txt

2 Запуск и сбор метрик

Каждый запрос я повторял трижды — чтобы отсечь шум. Замерял: latency первого токена, throughput (токенов/сек), качество ответа по 5-балльной шкале (оценка асессорами по критериям: точность, полнота, соответствие тону).

Метрика	Qwen3-235B	DeepSeek V4 Flash	Gemma 4 27B	MiniMax-M2.7
TTFT (ms)	87	134	45	156
Throughput (tok/s)	24.3	31.2	58.7	22.1
Качество (1-5)	4.7	4.4	3.9	3.5
Цена за 1М токенов ($)	0.18	0.12	0.35	0.22

Нюансы и ошибки: почему кросс-сессии шумят

На первом прогоне я получил дикий разброс: у MiniMax latency скакал от 90 до 400 ms. Причина — в модели используется динамическое квантование, которое пересчитывает веса на лету. Именно об этом я писал в статье про динамическое квантование Unsolth. Если не фиксировать seed и не прогревать модель, результаты — лотерея.

Как НЕ надо: запускать один раз, менять что-то на лету, игнорировать квантование. Я убил два дня на перезапуски, пока не понял, что llama.cpp c флагом --memory-f32 устраняет флуктуации.

Второй грабли — MiniMax. Он выдал самый низкий quality score. Но если присмотреться, он справляется с короткими инструкциями, а на длинных контекстах плавится. Для RAG с маленькими чанками — ок, для генерации целых документов — нет. Кстати, про маленькие модели я тоже рассказывал в тесте 11 LLM на CPU для tool-calling.

Разбор полётов: кто кого

Qwen3-235B — сухой остаток

Высокое качество, стабильный latency, цена 0.18$ за миллион токенов. Единственный минус — требует 128 GB RAM в Q4. Но с учётом того, что 4-битная версия почти не теряет в качестве (см. статью про квантование vs размер), это разумная плата.

DeepSeek V4 Flash — недооценённый убийца

Она быстрее Qwen по throughput, дешевле на 30%, но качество на 0.3 балла ниже. Для задач, где нужно генерировать много текста и достаточно общей логики — идеальный вариант. Я бы поставил её в качестве дефолтной модели, а Qwen3-235B держал для сложных рассуждений.

Gemma 4 27B — быстрая, но пустая

Самая низкая цена за токен, но и худшее качество. Ответы часто поверхностные, особенно на технические вопросы. Годится для чат-бота с простыми запросами, но не для code review или генерации документации.

MiniMax-M2.7 — разочарование

Самый высокий latency, нестабильное качество. Единственный плюс — поддержка длинных контекстов до 128K, но на практике это нивелируется тормозами. Не советую брать, если у вас не специфическая задача.

Неочевидный совет: не меняйте модель, если не сломалась

Год назад Qwen3-235B была топом. Сейчас она снова подтвердила статус. Пока DeepSeek догоняет, а Gemma и MiniMax пытаются выделиться нишевыми фишками, Qwen остаётся надёжным выбором для продакшена. Экономия на инференсе за счёт оптимизаций вроде ik_llama.cpp (кстати, 40% прирост реальный) только укрепляет её позицию.

Лучшая модель — та, чьи грабли вы уже выучили. Qwen3-235B — это сухой остаток. Не гонитесь за новизной ради новизны.

Подписаться на канал