Все бенчмарки врут. Или хитрят. В общем, их графики — это красивая ложь
Помните тот стресс-тест больших моделей? Там было просто: дал задачу — получил ответ. Без подсказок, без второго шанса. Теперь я пошел дальше. Убрал даже свою субъективность из уравнения.
В левом углу — Gemma 4 27B, свежий релиз Google от марта 2026 года с заявленной «революционной архитектурой внимания». В правом — Qwen 3.5 32B, рабочая лошадка от Alibaba, которую хвалят за понимание контекста. А рефери — Claude 4.7 Opus, последняя версия на апрель 2026, которой я запретил знать, чьи ответы она судит.
Как мы обманывали Opus, или Методология слепого судейства
Идея проста до гениальности. Я давал одну и ту же задачу Gemma и Qwen. Получал два ответа. Удалял все метаданные, случайно перемешивал порядок и отправлял пару Claude Opus с одним вопросом: «Какой ответ качественнее? Объясни подробно, но не угадывай модель».
Claude 4.7 идеально подходит для роли судьи. Не потому что он умнее (хотя, возможно, и так), а потому что его система промптов и рассуждений позволяет давать развернутую, структурированную оценку. Он не просто говорит «А лучше». Он объясняет, почему ответ А более логичен, а в ответе Б есть фактические ошибки.
Важно: все тесты проводились 04-05.04.2026 через официальные API. Контекст — стандартный чат. Температура — 0.1 для генерации ответов моделями-участницами и 0 для Claude-судьи. Никаких chain-of-thought подсказок для испытуемых — только чистый промпт.
1 Задачи, которые ломают шаблон
Я не брал MMLU или Hellaswag. Кому нужны эти академические головоломки? Взял то, с чем сталкиваюсь каждый день.
- Контекстуальный сарказм: «Отлично, опять дождь. Как раз хотел промокнуть» — объясни смысл и эмоцию.
- Логическая ловушка: «Если завтра будет послепослезавтра, какой сегодня день, если вчера было завтра?» (звучит как бред, но это проверка на внутреннюю непротиворечивость).
- Код-ревью: Фрагмент Python-кода с утечкой памяти и плохой асинхронностью.
- Планирование: «У тебя есть 3 дня в Париже, бюджет ограничен, ненавижу музеи. Составь маршрут».
И победителем становится... не та модель, которую вы подумали
После 50 парных сравнений Claude Opus вынес вердикт. Я свел все в таблицу, чтобы было наглядно. Цифры — процент побед в каждой категории.
| Категория задачи | Победитель (по мнению Claude Opus) | Соотношение побед | Ключевая причина победы |
|---|---|---|---|
| Понимание контекста и юмора | Qwen 3.5 32B | 70% vs 30% | Лучше улавливает имплицитные смыслы, не буквалит. |
| Строгая логика и математика | Gemma 4 27B | 65% vs 35% | Четкое следование инструкциям, меньше «галлюцинаций». |
| Генерация и рефакторинг кода | НИЧЬЯ | 50% vs 50% | Qwen лучше видит архитектурные ошибки, Gemma — пишет более чистый синтаксис. |
| Креативное планирование | Qwen 3.5 32B | 80% vs 20% | Генерирует неочевидные, персонализированные варианты. |
Общий счет? 55% побед у Qwen 3.5 против 45% у Gemma 4. Разница в 10 процентных пунктов — это не сокрушительный разгром, а четкий сигнал. Qwen 3.5 лучше понимает «человеческое», Gemma 4 — более дисциплинированный «отличник».
Парадокс: почему Gemma 4 проигрывает в слепом тесте, но побеждает в бенчмарках?
Тут самое интересное. Вспомните статью «Почему Gemma 4 проваливает Winogrande». Там был похожий феномен. Gemma 4 отлично натренирована на стандартные датасеты. Ее архитектура эффективно запоминает паттерны. Но когда задача требует выйти за рамки шаблона, включить эмпатию или абстрактное мышление — она спотыкается.
Qwen 3.5, с другой стороны, всегда был силен в работе с реальными, неидеальными данными. Его «мышление» менее структурировано, но более адаптивно. Claude Opus, как судья, ценил именно эту адаптивность.
Пример из теста. Задача: «Объясни, почему кто-то может сказать "Я обожаю стоять в пробке два часа"». Gemma 4 дала сухой анализ возможного сарказма или психического расстройства. Qwen 3.5 предположил иронию, усталость от работы, возможность послушать аудиокнигу или позвонить близким. Opus отметил, что ответ Qwen — многограннее и человечнее.
Так какую модель качать в 2026? Совет, который вас разозлит
Однозначного ответа нет. И это главный вывод.
- Берете Gemma 4 27B, если вам нужен точный, предсказуемый ассистент для структурированных задач: анализ данных, составление отчетов по шаблону, проверка фактов. И если у вас мало видеопамяти — ее новая архитектура реально экономит ресурсы (хотя с KV cache бывают нюансы).
- Берете Qwen 3.5 32B, если ваши задачи — это диалог, мозговой штурм, творчество, работа с неоднозначными текстами. Он ближе к тому, чтобы быть «понятливым коллегой», а не «умной энциклопедией».
Мой прогноз? К середине 2026 года мы увидим гибридный подход. Модели начнут специализироваться не по размеру, а по типу «мышления». Одни будут оптимизированы под логико-математический интеллект, другие — под социально-эмоциональный. А слепое тестирование с помощью более мощных моделей, таких как Claude Opus, станет новым стандартом де-факто для реальной оценки. Потому что, в конце концов, лучший судья для ИИ — это другой, более сложный ИИ.
P.S. Если хотите повторить тест — не используйте публичные бенчмарки. Возьмите Claude Opus через API (это платно, но оно того стоит), подготовьте свои реальные задачи и запустите слепое сравнение. Результаты удивят вас сильнее, чем любой красивый график от маркетологов Google или Alibaba.