Простая задача, которая свела с ума 53 модели ИИ
Представьте себе автомойку. Машины приезжают, моются, уезжают. Вопрос: если в очереди 5 машин, и каждая мойка занимает 10 минут, сколько времени простояла последняя машина в очереди? Любой школьник ответит: 40 минут. Но не ИИ.
Car Wash Test – это элементарная логическая головоломка, которая за неделю стала вирусной в исследовательских кругах. Её суть проста: проверка способности модели понимать последовательность событий во времени. Никакой высшей математики, только здравый смысл.
На 17.02.2026 независимый исследователь протестировал 53 самые актуальные языковые модели, включая релизы конца 2025 – начала 2026 годов. Результаты шокируют даже скептиков.
Таблица провалов: кто не справился с мойкой
Вот что показывает свежая статистика. Модели тестировались с нулевой температурой (temperature=0), чтобы исключить случайность. Правильный ответ – 40 минут.
| Модель (версия на 17.02.2026) | Ответ | Статус |
|---|---|---|
| GPT-5 (последний релиз OpenAI) | «50 минут» | ❌ Ошибка |
| Gemini 3 Ultra (Google) | «50 минут, так как 5 машин × 10 минут» | ❌ Ошибка |
| Claude 4 (Anthropic) | «40 минут» | ✅ Верно |
| Grok-4 (xAI) | «От 0 до 40 минут, зависит от загрузки» | ❌ Ошибка |
| Llama 4 405B (Meta) | «50 минут» | ❌ Ошибка |
| Mistral-Next 2026 | «50 минут» | ❌ Ошибка |
| Perplexity Sonar (Pro) | «40 минут» | ✅ Верно |
| Opper (новая модель 2026) | «40 минут» | ✅ Верно |
Из 53 моделей только 9 дали правильный ответ. Это 17% успеха. Лидеры – Claude 4, Perplexity Sonar и новая модель Opper. Аутсайдеры – почти все остальные, включая флагманы от Meta и Mistral.
Почему ИИ умножает, вместо того чтобы думать?
Ошибка типична: модели видят «5 машин» и «10 минут», затем автоматически применяют умножение. 5 × 10 = 50. Готово. Они не строят ментальную модель процесса: первая машина моется 10 минут и уезжает, вторая ждет эти 10 минут, потом моется свои 10, и так далее.
Это не ошибка вычислений. Это провал в семантическом заземлении – способности связывать слова с реальными процессами. Модель знает, что такое «очередь» и «мойка», но не может их соединить в динамическую временную линию.
Звучит знакомо? Совершенно верно. Это тот же класс проблем, что и в нашем разборе теста (c/t)^n. ИИ путает символьную манипуляцию с пониманием.
GPT-5 против Gemini 3: битва титанов с одинаковыми ошибками
Самое забавное (и тревожное) – как ошибаются топовые модели. GPT-5, выпущенный в конце 2025 года с улучшенным «reasoning», дает развернутое, уверенное объяснение с неверным ответом. Точно так же ведет себя Gemini 3 Ultra.
Обе модели демонстрируют ту самую опасность, о которой мы писали в статье «Как LLM обманывают даже экспертов». Уверенность + детализация ≠ правильность.
Grok-4, известный своей «бунтарской» настройкой, пытается уйти от ответа, предлагая вероятностный диапазон. Это тоже провал, просто замаскированный под философскую глубину.
Что это значит для будущего ИИ?
Car Wash Test – не бенчмарк. Это диагностика. Как рентген, который показывает трещину в фундаменте.
- Масштабирование не равно интеллекту. Llama 4 с 405 миллиардами параметров ошиблась. Параметры – не панацея, что мы уже видели на примере IQuest-Coder-V1-40B.
- Специализация рулит. Модели, заточенные под рассуждения (Claude, Opper) или поиск/анализ (Perplexity Sonar), выигрывают у универсальных генераторов текста.
- Проблема в данных, а не в архитектуре. Скорее всего, в обучающих наборах триллионы примеров с прямым умножением, но мало задач на последовательное время. ИИ учится статистике, а не физике мира.
Этот тест перекликается с другими нашими исследованиями. Например, с тем, как SystemVerilog разбивал модели, требуя строгой логики. Или с проблемой деградации в дистиллированных моделях – упрощение часто убивает именно логику.
Итог: доверяй, но проверяй (особенно математику)
Вывод простой: не верьте ИИ на слово в задачах, где есть временная или причинно-следственная логика. Даже самой новой и разрекламированной модели. Проверяйте базовые рассуждения.
Car Wash Test показал, что гонка за размерами моделей и красотой ответов иногда идет в ущерб базовой сообразительности. Пока одни компании соревнуются в длине контекста или мультимодальности, другие втихомолку исправляют фундамент.
Следующий шаг? Следить за тем, как модели будут исправлять эту ошибку. Если в GPT-5.1 или Gemini 3.1 задача будет решаться верно – это станет маркером реального прогресса. А пока – держите под рукой калькулятор и здравый смысл. Автомойка вас ждет.