Что такое Car Wash Test?

Простая логическая задача про очередь на автомойке, которая проверяет способность ИИ-моделей понимать последовательность событий во времени.

Какие модели ИИ прошли Car Wash Test в 2026 году?

По данным на 17.02.2026, правильно ответили Claude 4, Perplexity Sonar (Pro) и новая модель Opper. Остальные 44 из 53 протестированных моделей дали неверный ответ.

Почему такие мощные модели, как GPT-5 и Gemini 3, ошибаются в простой задаче?

Модели склонны к автоматическому применению умножения (5 машин × 10 минут), вместо построения ментальной модели последовательного процесса. Это проблема семантического заземления, а не вычислительных способностей.

Car Wash Test 2026: результаты тестирования 53 ИИ-моделей на логике

Простая задача, которая свела с ума 53 модели ИИ

Представьте себе автомойку. Машины приезжают, моются, уезжают. Вопрос: если в очереди 5 машин, и каждая мойка занимает 10 минут, сколько времени простояла последняя машина в очереди? Любой школьник ответит: 40 минут. Но не ИИ.

Car Wash Test – это элементарная логическая головоломка, которая за неделю стала вирусной в исследовательских кругах. Её суть проста: проверка способности модели понимать последовательность событий во времени. Никакой высшей математики, только здравый смысл.

На 17.02.2026 независимый исследователь протестировал 53 самые актуальные языковые модели, включая релизы конца 2025 – начала 2026 годов. Результаты шокируют даже скептиков.

Таблица провалов: кто не справился с мойкой

Вот что показывает свежая статистика. Модели тестировались с нулевой температурой (temperature=0), чтобы исключить случайность. Правильный ответ – 40 минут.

Модель (версия на 17.02.2026)	Ответ	Статус
GPT-5 (последний релиз OpenAI)	«50 минут»	❌ Ошибка
Gemini 3 Ultra (Google)	«50 минут, так как 5 машин × 10 минут»	❌ Ошибка
Claude 4 (Anthropic)	«40 минут»	✅ Верно
Grok-4 (xAI)	«От 0 до 40 минут, зависит от загрузки»	❌ Ошибка
Llama 4 405B (Meta)	«50 минут»	❌ Ошибка
Mistral-Next 2026	«50 минут»	❌ Ошибка
Perplexity Sonar (Pro)	«40 минут»	✅ Верно
Opper (новая модель 2026)	«40 минут»	✅ Верно

Из 53 моделей только 9 дали правильный ответ. Это 17% успеха. Лидеры – Claude 4, Perplexity Sonar и новая модель Opper. Аутсайдеры – почти все остальные, включая флагманы от Meta и Mistral.

💡

Любопытно, что модели, обученные с акцентом на поисковое мышление (как Perplexity Sonar) или цепочки рассуждений (Claude, Opper), справились лучше. Это подтверждает теорию из нашего материала про Reasoning On/Off: включенное мышление критично для логики.

Почему ИИ умножает, вместо того чтобы думать?

Ошибка типична: модели видят «5 машин» и «10 минут», затем автоматически применяют умножение. 5 × 10 = 50. Готово. Они не строят ментальную модель процесса: первая машина моется 10 минут и уезжает, вторая ждет эти 10 минут, потом моется свои 10, и так далее.

Это не ошибка вычислений. Это провал в семантическом заземлении – способности связывать слова с реальными процессами. Модель знает, что такое «очередь» и «мойка», но не может их соединить в динамическую временную линию.

Звучит знакомо? Совершенно верно. Это тот же класс проблем, что и в нашем разборе теста (c/t)^n. ИИ путает символьную манипуляцию с пониманием.

GPT-5 против Gemini 3: битва титанов с одинаковыми ошибками

Самое забавное (и тревожное) – как ошибаются топовые модели. GPT-5, выпущенный в конце 2025 года с улучшенным «reasoning», дает развернутое, уверенное объяснение с неверным ответом. Точно так же ведет себя Gemini 3 Ultra.

Обе модели демонстрируют ту самую опасность, о которой мы писали в статье «Как LLM обманывают даже экспертов». Уверенность + детализация ≠ правильность.

Grok-4, известный своей «бунтарской» настройкой, пытается уйти от ответа, предлагая вероятностный диапазон. Это тоже провал, просто замаскированный под философскую глубину.

Что это значит для будущего ИИ?

Car Wash Test – не бенчмарк. Это диагностика. Как рентген, который показывает трещину в фундаменте.

Масштабирование не равно интеллекту. Llama 4 с 405 миллиардами параметров ошиблась. Параметры – не панацея, что мы уже видели на примере IQuest-Coder-V1-40B.
Специализация рулит. Модели, заточенные под рассуждения (Claude, Opper) или поиск/анализ (Perplexity Sonar), выигрывают у универсальных генераторов текста.
Проблема в данных, а не в архитектуре. Скорее всего, в обучающих наборах триллионы примеров с прямым умножением, но мало задач на последовательное время. ИИ учится статистике, а не физике мира.

Этот тест перекликается с другими нашими исследованиями. Например, с тем, как SystemVerilog разбивал модели, требуя строгой логики. Или с проблемой деградации в дистиллированных моделях – упрощение часто убивает именно логику.

Итог: доверяй, но проверяй (особенно математику)

Вывод простой: не верьте ИИ на слово в задачах, где есть временная или причинно-следственная логика. Даже самой новой и разрекламированной модели. Проверяйте базовые рассуждения.

Car Wash Test показал, что гонка за размерами моделей и красотой ответов иногда идет в ущерб базовой сообразительности. Пока одни компании соревнуются в длине контекста или мультимодальности, другие втихомолку исправляют фундамент.

Следующий шаг? Следить за тем, как модели будут исправлять эту ошибку. Если в GPT-5.1 или Gemini 3.1 задача будет решаться верно – это станет маркером реального прогресса. А пока – держите под рукой калькулятор и здравый смысл. Автомойка вас ждет.

Car Wash Test: 53 модели ИИ провалили простейшую логику, и вот что это значит