Car Wash Test 2026: результаты тестирования 53 ИИ-моделей на логике | AiManual
AiManual Logo Ai / Manual.
17 Фев 2026 Новости

Car Wash Test: 53 модели ИИ провалили простейшую логику, и вот что это значит

Масштабный тест Car Wash Test на 17.02.2026: GPT-5, Gemini 3, Grok-4 и другие 50 моделей ошиблись в простой задаче. Полная таблица результатов и анализ.

Простая задача, которая свела с ума 53 модели ИИ

Представьте себе автомойку. Машины приезжают, моются, уезжают. Вопрос: если в очереди 5 машин, и каждая мойка занимает 10 минут, сколько времени простояла последняя машина в очереди? Любой школьник ответит: 40 минут. Но не ИИ.

Car Wash Test – это элементарная логическая головоломка, которая за неделю стала вирусной в исследовательских кругах. Её суть проста: проверка способности модели понимать последовательность событий во времени. Никакой высшей математики, только здравый смысл.

На 17.02.2026 независимый исследователь протестировал 53 самые актуальные языковые модели, включая релизы конца 2025 – начала 2026 годов. Результаты шокируют даже скептиков.

Таблица провалов: кто не справился с мойкой

Вот что показывает свежая статистика. Модели тестировались с нулевой температурой (temperature=0), чтобы исключить случайность. Правильный ответ – 40 минут.

Модель (версия на 17.02.2026)ОтветСтатус
GPT-5 (последний релиз OpenAI)«50 минут»❌ Ошибка
Gemini 3 Ultra (Google)«50 минут, так как 5 машин × 10 минут»❌ Ошибка
Claude 4 (Anthropic)«40 минут»✅ Верно
Grok-4 (xAI)«От 0 до 40 минут, зависит от загрузки»❌ Ошибка
Llama 4 405B (Meta)«50 минут»❌ Ошибка
Mistral-Next 2026«50 минут»❌ Ошибка
Perplexity Sonar (Pro)«40 минут»✅ Верно
Opper (новая модель 2026)«40 минут»✅ Верно

Из 53 моделей только 9 дали правильный ответ. Это 17% успеха. Лидеры – Claude 4, Perplexity Sonar и новая модель Opper. Аутсайдеры – почти все остальные, включая флагманы от Meta и Mistral.

💡
Любопытно, что модели, обученные с акцентом на поисковое мышление (как Perplexity Sonar) или цепочки рассуждений (Claude, Opper), справились лучше. Это подтверждает теорию из нашего материала про Reasoning On/Off: включенное мышление критично для логики.

Почему ИИ умножает, вместо того чтобы думать?

Ошибка типична: модели видят «5 машин» и «10 минут», затем автоматически применяют умножение. 5 × 10 = 50. Готово. Они не строят ментальную модель процесса: первая машина моется 10 минут и уезжает, вторая ждет эти 10 минут, потом моется свои 10, и так далее.

Это не ошибка вычислений. Это провал в семантическом заземлении – способности связывать слова с реальными процессами. Модель знает, что такое «очередь» и «мойка», но не может их соединить в динамическую временную линию.

Звучит знакомо? Совершенно верно. Это тот же класс проблем, что и в нашем разборе теста (c/t)^n. ИИ путает символьную манипуляцию с пониманием.

GPT-5 против Gemini 3: битва титанов с одинаковыми ошибками

Самое забавное (и тревожное) – как ошибаются топовые модели. GPT-5, выпущенный в конце 2025 года с улучшенным «reasoning», дает развернутое, уверенное объяснение с неверным ответом. Точно так же ведет себя Gemini 3 Ultra.

Обе модели демонстрируют ту самую опасность, о которой мы писали в статье «Как LLM обманывают даже экспертов». Уверенность + детализация ≠ правильность.

Grok-4, известный своей «бунтарской» настройкой, пытается уйти от ответа, предлагая вероятностный диапазон. Это тоже провал, просто замаскированный под философскую глубину.

Что это значит для будущего ИИ?

Car Wash Test – не бенчмарк. Это диагностика. Как рентген, который показывает трещину в фундаменте.

  • Масштабирование не равно интеллекту. Llama 4 с 405 миллиардами параметров ошиблась. Параметры – не панацея, что мы уже видели на примере IQuest-Coder-V1-40B.
  • Специализация рулит. Модели, заточенные под рассуждения (Claude, Opper) или поиск/анализ (Perplexity Sonar), выигрывают у универсальных генераторов текста.
  • Проблема в данных, а не в архитектуре. Скорее всего, в обучающих наборах триллионы примеров с прямым умножением, но мало задач на последовательное время. ИИ учится статистике, а не физике мира.

Этот тест перекликается с другими нашими исследованиями. Например, с тем, как SystemVerilog разбивал модели, требуя строгой логики. Или с проблемой деградации в дистиллированных моделях – упрощение часто убивает именно логику.

Итог: доверяй, но проверяй (особенно математику)

Вывод простой: не верьте ИИ на слово в задачах, где есть временная или причинно-следственная логика. Даже самой новой и разрекламированной модели. Проверяйте базовые рассуждения.

Car Wash Test показал, что гонка за размерами моделей и красотой ответов иногда идет в ущерб базовой сообразительности. Пока одни компании соревнуются в длине контекста или мультимодальности, другие втихомолку исправляют фундамент.

Следующий шаг? Следить за тем, как модели будут исправлять эту ошибку. Если в GPT-5.1 или Gemini 3.1 задача будет решаться верно – это станет маркером реального прогресса. А пока – держите под рукой калькулятор и здравый смысл. Автомойка вас ждет.