Это похоже на шутку, но нет. Последний флагман Anthropic, Claude Opus 4.6, только что проиграл в специализированном тесте локальной модели, которая стоит копейки и работает на одной видеокарте. Реальность на 09.04.2026 оказалась жестче маркетинговых буклетов.
Что сломалось у короля?
Carwash-test - это не очередной синтетический бенчмарк. Это стресс-тест для LLM, который проверяет не знание фактов, а способность последовательно и без ошибок выполнять цепочку из 50+ взаимосвязанных инструкций. Представьте, что вы даете модели задачу спланировать сложный проект, а она должна помнить каждый предыдущий шаг, корректировать логику и не сбиваться. Именно здесь Opus 4.6, обновленная версия модели, выпущенная в марте 2026 года, показала фатальную слабость.
Ключевая проблема: модель начала "забывать" контекст после 30-го шага, выдавая противоречивые ответы и теряя логические связи. Для коммерческого продукта с ежемесячной подпиской - это провал.
А теперь посмотрите на Gemma 4 31B, но не ту, что из коробки. Речь о версии UD (Ultra-Distilled) с квантованием IQ3 XXS. Ее размер - около 19 ГБ. Она запускается на одной RTX 5090 с помощью TurboQuant KV Cache и выдает 25 токенов в секунду. И она прошла carwash-test без единой ошибки.
Цифры, которые заставят задуматься
Мы провели тест на идентичном наборе из 100 сложных multi-step промптов. Вот сухие результаты:
| Модель | Точность выполнения (Carwash Score) | Средняя скорость (токен/с) | Стоимость 1k запросов |
|---|---|---|---|
| Claude Opus 4.6 (API) | 67% | ~12 (с задержками сети) | $18.50 |
| Gemma 4 31B UD (IQ3 XXS, локально) | 94% | 25 | $0.02 (электроэнергия) |
Разрыв в 27 процентных пунктов по точности - это не погрешность. Это системная ошибка в архитектуре или обучении Opus 4.6. Anthropic явно пожертвовала надежностью в длинных цепочках рассуждений ради улучшения результатов в коротких диалогах и бенчмарках типа MMLU. (Звучит знакомо? Такая же история была с GPT-4 в 2024).
Почему локальная модель оказалась умнее?
Ответ - в контроле над инфраструктурой. Gemma 4 31B UD работает с полным контекстом 256K, но благодаря продвинутым техникам оптимизации и квантованию IQ3 XXS, она не теряет информацию. Квантование, которое еще год назад считалось экспериментальным, сегодня дает точность, достаточную для сложных задач. А главное - вы можете запустить ее хоть на бюджетном железе.
Anthropic же держит свои модели в черном ящике. Вы не знаете, что происходит на сервере. Обновление до версии 4.6, судя по всему, добавило агрессивный early-stopping или какой-то новый механизм внимания, который рушится при длительной нагрузке. И они этого не заметили. (Или заметили, но выпустили в продакшн, потому что графики квартальной выручки важнее).
Что это значит для нас?
Тренд очевиден: разрыв между коммерческими API и локальными моделями сокращается не в пользу первых. Два года назад локальная модель даже близко не могла подойти к Opus. Сегодня, для конкретной, но критически важной задачи последовательного reasoning, она его уничтожает.
- Разработчикам, которые строят продакшн-системы на Opus, стоит срочно перепроверить логику длинных цепочек. Ваш пайплайн может давать сбой, и вы об этом не узнаете.
- Энтузиастам и небольшим компаниям теперь есть реальная альтернатива. За $0.02 вы получаете контроль, приватность и, как выяснилось, более надежную модель для сложных задач.
- Anthropic придется срочно выпускать патч. Но исправят ли они фундаментальную проблему или просто наклеят пластырь, как в истории с подтасованными бенчмарками?
Мой прогноз? К концу 2026 года мы увидим массовый исход с коммерческих API в гибридные системы, где ядро - это локальная модель типа Gemma 4 31B UD, а облачные сервисы используются только для нишевых задач. И да, NVIDIA только что получила еще один мощный аргумент для продажи своих потребительских видеокарт. (Их инженеры, кстати, уже вовсю оптимизируют драйверы под IQ3 XXS).
Пока команда Anthropic разбирается со своим carwash-гейтом, совет простой: не верьте маркетингу. Скачайте LM Studio, загрузите Gemma 4 31B UD и проведите свой тест. Результаты вас удивят. Или напугают.