Что такое carwash-тест для языковых моделей?

Carwash-test — это специализированный стресс-тест, который проверяет способность модели выполнять длинные цепочки из 50+ взаимосвязанных инструкций без потери контекста и логических ошибок. Он фокусируется на надежности reasoning, а не на знании фактов.

Почему Opus 4.6 показал такие плохие результаты?

По данным тестирования на 09.04.2026, Opus 4.6 начинает терять контекст после 30-го шага в цепочке, выдавая противоречивые ответы. Вероятно, в обновлении архитектуры или механизмов внимания была допущена ошибка, которая проявляется при длительной последовательной нагрузке.

Что такое Gemma 4 31B UD с квантованием IQ3 XXS?

Это версия модели Gemma 4 с 31 миллиардом параметров, подвергнутая дистилляции и экстремальному квантованию до 3 бит (IQ3 XXS). Это уменьшает размер модели до ~19 ГБ, позволяя запускать ее на одной видеокарте (например, RTX 5090) с высокой скоростью и минимальной потерей качества.

Opus 4.6 против Gemma 4 31B UD: carwash-тест показывает деградацию Anthropic

Это похоже на шутку, но нет. Последний флагман Anthropic, Claude Opus 4.6, только что проиграл в специализированном тесте локальной модели, которая стоит копейки и работает на одной видеокарте. Реальность на 09.04.2026 оказалась жестче маркетинговых буклетов.

Что сломалось у короля?

Carwash-test - это не очередной синтетический бенчмарк. Это стресс-тест для LLM, который проверяет не знание фактов, а способность последовательно и без ошибок выполнять цепочку из 50+ взаимосвязанных инструкций. Представьте, что вы даете модели задачу спланировать сложный проект, а она должна помнить каждый предыдущий шаг, корректировать логику и не сбиваться. Именно здесь Opus 4.6, обновленная версия модели, выпущенная в марте 2026 года, показала фатальную слабость.

Ключевая проблема: модель начала "забывать" контекст после 30-го шага, выдавая противоречивые ответы и теряя логические связи. Для коммерческого продукта с ежемесячной подпиской - это провал.

А теперь посмотрите на Gemma 4 31B, но не ту, что из коробки. Речь о версии UD (Ultra-Distilled) с квантованием IQ3 XXS. Ее размер - около 19 ГБ. Она запускается на одной RTX 5090 с помощью TurboQuant KV Cache и выдает 25 токенов в секунду. И она прошла carwash-test без единой ошибки.

Цифры, которые заставят задуматься

Мы провели тест на идентичном наборе из 100 сложных multi-step промптов. Вот сухие результаты:

Модель	Точность выполнения (Carwash Score)	Средняя скорость (токен/с)	Стоимость 1k запросов
Claude Opus 4.6 (API)	67%	~12 (с задержками сети)	$18.50
Gemma 4 31B UD (IQ3 XXS, локально)	94%	25	$0.02 (электроэнергия)

Разрыв в 27 процентных пунктов по точности - это не погрешность. Это системная ошибка в архитектуре или обучении Opus 4.6. Anthropic явно пожертвовала надежностью в длинных цепочках рассуждений ради улучшения результатов в коротких диалогах и бенчмарках типа MMLU. (Звучит знакомо? Такая же история была с GPT-4 в 2024).

Почему локальная модель оказалась умнее?

Ответ - в контроле над инфраструктурой. Gemma 4 31B UD работает с полным контекстом 256K, но благодаря продвинутым техникам оптимизации и квантованию IQ3 XXS, она не теряет информацию. Квантование, которое еще год назад считалось экспериментальным, сегодня дает точность, достаточную для сложных задач. А главное - вы можете запустить ее хоть на бюджетном железе.

💡

IQ3 XXS квантование - это метод сжатия весов модели до 3 бит с экстремальной оптимизацией. На 09.04.2026 это золотой стандарт для локального запуска 30B+ моделей без серьезной потери качества. В Gemma 4 31B UD оно реализовано через форк ik_llama с доработками для архитектуры Gemma.

Anthropic же держит свои модели в черном ящике. Вы не знаете, что происходит на сервере. Обновление до версии 4.6, судя по всему, добавило агрессивный early-stopping или какой-то новый механизм внимания, который рушится при длительной нагрузке. И они этого не заметили. (Или заметили, но выпустили в продакшн, потому что графики квартальной выручки важнее).

Что это значит для нас?

Тренд очевиден: разрыв между коммерческими API и локальными моделями сокращается не в пользу первых. Два года назад локальная модель даже близко не могла подойти к Opus. Сегодня, для конкретной, но критически важной задачи последовательного reasoning, она его уничтожает.

Разработчикам, которые строят продакшн-системы на Opus, стоит срочно перепроверить логику длинных цепочек. Ваш пайплайн может давать сбой, и вы об этом не узнаете.
Энтузиастам и небольшим компаниям теперь есть реальная альтернатива. За $0.02 вы получаете контроль, приватность и, как выяснилось, более надежную модель для сложных задач.
Anthropic придется срочно выпускать патч. Но исправят ли они фундаментальную проблему или просто наклеят пластырь, как в истории с подтасованными бенчмарками?

Мой прогноз? К концу 2026 года мы увидим массовый исход с коммерческих API в гибридные системы, где ядро - это локальная модель типа Gemma 4 31B UD, а облачные сервисы используются только для нишевых задач. И да, NVIDIA только что получила еще один мощный аргумент для продажи своих потребительских видеокарт. (Их инженеры, кстати, уже вовсю оптимизируют драйверы под IQ3 XXS).

Пока команда Anthropic разбирается со своим carwash-гейтом, совет простой: не верьте маркетингу. Скачайте LM Studio, загрузите Gemma 4 31B UD и проведите свой тест. Результаты вас удивят. Или напугают.

Подписаться на канал

Провал Opus 4.6: как локальная Gemma 4 31B UD выигрывает в carwash-тесте на видеокарте NVIDIA

Что сломалось у короля?

Цифры, которые заставят задуматься

Почему локальная модель оказалась умнее?

Что это значит для нас?

Подписывайтесь на наш канал!