Картинки, которые говорят громче MMLU
Забудьте про таблицы с цифрами. Забудьте про графики, где Q4 чуть лучше Q3, но Q6 уже слишком тяжелый. В сообществе локальных LLM появился инструмент, который показывает разницу между квантованиями так, что её невозможно игнорировать.
Qwen Coders — это не очередной бенчмарк со скучными цифрами. Это визуальный тест, где модели генерируют световые шоу (lightshow) по описанию. И разница между IQ1, Q3 и Q4 видна не в процентах точности, а в том, как модель понимает пространство, цвет и движение.
Актуально на 04.02.2026: инструмент тестирует последние версии Qwen Coder Next с поддержкой IQ1 (1-битное интеллектуальное квантование), Q3_K_S и Q4_K_M — самых популярных форматов для локального запуска.
Что показывает этот тест, чего не покажет MMLU
Стандартные бенчмарки вроде MMLU или GSM8K измеряют общие знания. Но когда вы квантуете модель для программирования, вам нужно знать другое: сохраняет ли она логику? Не теряет ли понимание контекста? Не начинает ли галлюцинировать там, где раньше работала идеально?
Lightshow-тест — это проверка пространственного мышления. Модель получает описание: "Создай световое шоу, где красные огни движутся по кругу, синие пульсируют в центре, а зелёные образуют спираль". И по тому, как она это визуализирует, становится ясно — работает ли квантование или уже сломалось.
IQ1 (то самое интеллектуальное 1-битное квантование, о котором мы писали ранее) в теории должно сохранять больше качества при меньшем размере. На практике же...
IQ1 vs Q3 vs Q4: неочевидные результаты
Вот что показывают тесты на Qwen Coder Next 7B (последняя версия на февраль 2026):
| Квант | Размер | Качество lightshow | Что ломается первым |
|---|---|---|---|
| Q4_K_M | ~4.5 ГБ | Идеально. Цвета, движение, синхронизация | Ничего не ломается |
| Q3_K_S | ~3.4 ГБ | Хорошо. Иногда путает направления движения | Пространственная логика |
| IQ1_S | ~1.8 ГБ | Плохо. Цвета верные, но логика движения хаотична | Всё, кроме базового распознавания цветов |
Самое интересное: IQ1 сохраняет знание цветов (красный, синий, зелёный), но полностью теряет понимание того, как эти цвета должны двигаться. Модель как будто помнит словарь, но забыла грамматику.
Почему этот тест полезнее стандартных бенчмарков
Потому что он показывает деградацию качества там, где вы её не ожидаете. Вы можете запустить модель через MMLU и увидеть 95% сохранённой точности. А потом в реальной задаче она начнёт генерировать код с логическими ошибками.
Lightshow-тест — это стресс-тест для пространственного и временного мышления. Если модель справляется с ним, значит, она сохранила способность работать с:
- Последовательностями (что происходит до, что после)
- Пространственными отношениями (внутри, снаружи, вокруг)
- Временными интервалами (одновременно, последовательно, с задержкой)
Именно эти способности критичны для программирования. Когда вы пишете "сначала проверь условие, потом выполни цикл, и в конце верни результат" — вы используете те же механизмы, что и в описании светового шоу.
Как использовать инструмент на практике
Репозиторий на GitHub содержит всё необходимое:
- Промпты для тестирования разных аспектов (цвета, движение, синхронизация)
- Скрипты для автоматического запуска тестов на разных квантованиях
- Примеры выводов для сравнения
- Инструкции по настройке под ваше железо
Тест занимает 5-10 минут на модель. Запускаете три версии (IQ1, Q3, Q4), смотрите на результаты и сразу понимаете — стоит ли экономить место или лучше взять более тяжёлый, но рабочий вариант.
Важно: тест специфичен для Qwen Coder Next. Результаты для других моделей (например, из нашего обзора MiniMax M2.1) будут другими. Но методология работает для любой кодогенерирующей модели.
Кому этот инструмент реально нужен
Разработчикам, которые выбирают модель для локального запуска. У вас есть 8 ГБ VRAM и нужно решить — брать Qwen Coder Next 7B в Q4 или 14B в IQ1? Тест покажет, что 7B в Q4 генерирует осмысленные световые шоу, а 14B в IQ1 выдаёт цветной бред.
Исследователям, которые изучают эффекты квантования. Вместо абстрактных "потеря качества 5%" вы получаете конкретные примеры: "модель перестаёт понимать предлоги направления".
Энтузиастам, уставшим от бесконечных споров "Q3 vs Q4". Теперь можно просто показать две картинки и спросить: "Какая из них выглядит как работающая модель?"
Что дальше? (Спойлер: всё становится интереснее)
Авторы репозитория обещают добавить тесты для:
- Qwen Coder Next 14B и 32B (последние версии на начало 2026)
- Сравнение с другими кодогенераторами (DeepSeek Coder, CodeLlama)
- Тесты на математическую логику (похожие на те, что мы описывали в обзоре Qwen3-32B)
Но самое главное — этот подход меняет правила игры в бенчмаркинге. Вместо "у этой модели 72.3% на MMLU" мы начинаем говорить "эта модель понимает вложенные условия, а эта — нет".
И последнее: если вы всё ещё выбираете между Q3 и Q4 на основе теоретических расчётов — остановитесь. Запустите lightshow-тест. Посмотрите на результаты. И вы поймёте, что иногда 1 ГБ разницы в размере — это разница между работающим инструментом и красивой, но бесполезной игрушкой.