Почему современные тесты ИИ вроде MMLU не работают?

MMLU и подобные тесты измеряют только память и распознавание паттернов, а не настоящее понимание. Модели учатся угадывать правильные ответы, но не строят ментальные модели реальности.

Чему ИИ может научиться у младенцев?

У младенцев ИИ может научиться базовым когнитивным операциям: пониманию постоянства объектов, причинно-следственных связей, распознаванию намерений других существ. Это фундамент здравого смысла.

Какие новые подходы к тестированию ИИ появляются в 2026 году?

Developmental AI Benchmarking - адаптация тестов из психологии развития для ИИ. Вместо текстовых вопросов - виртуальные среды, где модели должны предсказывать физические и социальные взаимодействия.

Почему ИИ, отлично сдающий экзамены, не может собрать мебель из IKEA?

Потому что сборка мебели требует понимания пространственных отношений, физических ограничений, следования инструкциям с пропущенными шагами - всего того, что не измеряется академическими тестами.

Оценка интеллекта ИИ: ошибки тестирования и уроки детской психологии

Тест пройден. Интеллекта нет

Вот вам загадка 2026 года. Claude 4.5 набирает 92% на MMLU. Gemini 3.0 Ultra проходит AGIEval лучше 95% выпускников Гарварда. GPT-5 решает олимпиадные задачи по физике за секунды.

А теперь попросите любую из этих моделей объяснить, почему нельзя класть металлическую ложку в микроволновку. Или как понять, что друг расстроен, даже если он говорит "все нормально". Или просто собрать мебель из IKEA по инструкции, где половина деталей нарисована схематично.

Провал. Полный, абсолютный, унизительный провал.

Мы создали системы, которые блестяще сдают экзамены, но не могут жить в мире. И проблема не в них. Проблема в том, как мы измеряем интеллект.

Мелиани Митчелл и парадокс "чужого ума"

Мелиани Митчелл - не нейросетевик. Она психолог развития. И ее работа с младенцами показывает то, что ИИ-исследователи упорно игнорируют уже десять лет.

"Мы тестируем ИИ так, будто проверяем знания студента перед выпуском," - говорит Митчелл в интервью для Nature от декабря 2025. "Но настоящий интеллект начинается не с экзаменов. Он начинается с того, как шестимесячный ребенок понимает, что предмет продолжает существовать, даже когда его не видно."

Это называется object permanence. Постоянство объекта. Базовый, фундаментальный кирпичик реальности. Человеческие младенцы осваивают его к 8 месяцам. Современные ИИ - даже самые продвинутые мультимодальные модели 2026 года - не понимают этого концепта на глубинном уровне.

Они могут описать его. Могут привести примеры. Могут даже решить задачи на логику с исчезающими объектами. Но они не верят в него. Не строят на этой вере свою картину мира.

💡

Психологи развития десятилетиями разрабатывали тесты для младенцев, которые не умеют говорить. Эти тесты измеряют не знания, а базовые когнитивные операции: причинно-следственные связи, распознавание намерений, понимание физических ограничений. Именно эти тесты сейчас становятся золотым стандартом для оценки ИИ.

MMLU - это не интеллект. Это энциклопедия

Massive Multitask Language Understanding. Звучит внушительно. На практике - это набор из 57 задач по математике, истории, праву, этике. Модель читает вопрос, выбирает ответ.

Проблема в том, что MMLU измеряет только одно: насколько хорошо модель запомнила паттерны вопросов и ответов. Это тест на память, а не на понимание.

Вот реальный пример из тестов 2025 года. Вопрос по физике: "Если шар катится по наклонной плоскости без трения, что происходит с его кинетической энергией?" Модель выбирает правильный ответ: увеличивается.

А теперь спросите ту же модель: "Представь, что ты этот шар. Что ты чувствуешь, когда катишься вниз?" Ответы варьируются от "я чувствую ускорение" до поэтических описаний "свободы движения". Ни один ответ не показывает понимания физики как системы ограничений. Только как набора фактов.

Как мы уже писали в материале о кризисе бенчмарков, DeepMind еще в 2024 году показала: модели научились играть в игру "угадай правильный ответ", а не думать.

Чему двухлетний ребенок учит ИИ

Возьмите обычного двухлетку. Он не знает законов Ньютона. Не может решить квадратное уравнение. Но он понимает вещи, которые ставят в тупик даже GPT-5:

Если мяч закатился под диван, он все еще существует
Мама сердится, даже если улыбается (но глаза узкие)
Высокая башня из кубиков упадет, если поставить криво
Собака хочет есть, когда подходит к миске

Это не знания. Это ментальные модели. Внутренние представления о том, как устроен мир. ИИ 2026 года все еще борется с этими концептами.

Почему? Потому что мы тренируем их на текстах и изображениях, а не на опыте. Мы даем им Википедию вместо реальности.

Что проверяем	Тесты для людей (дети)	Тесты для ИИ (2026)
Понимание физики	Исчезающие игрушки, устойчивость объектов	Решение уравнений, текстовые задачи
Социальный интеллект	Распознавание эмоций, совместное внимание	Анализ тональности текста, этические дилеммы
Причинное мышление	Эксперименты с игрушками (если нажать кнопку - загорится свет)	Логические головоломки, силлогизмы

Новые тесты: от экзамена к детской площадке

В 2025 году появилось движение "Developmental AI Benchmarking". Исследователи начали адаптировать тесты для младенцев под ИИ.

Вот как это работает. Вместо вопроса "Решите уравнение" модель получает виртуальную среду. Простую, как детская игра. Шарики, кубики, пандусы. И задача: предсказать, что произойдет.

Шар катится к краю стола. Упадет? Остановится? Отскочит? Модель должна не просто дать ответ. Она должна построить внутреннюю симуляцию физики.

Или социальный тест. Виртуальный персонаж смотрит на объект. Потом уходит. Приходит второй персонаж и перемещает объект. Вернется ли первый персонаж искать объект на старом месте? (Это тест на теорию сознания - понимание, что у других есть свои убеждения).

Результаты шокируют. Модели, которые блестяще проходят MMLU, проваливают эти "детские" тесты. Они не понимают базовых принципов реальности.

Курс "Профессия Разработчик + ИИ" теперь включает модуль по психологии развития. Потому что создавать интеллектуальные системы без понимания, что такое интеллект - все равно что строить мост без знания физики.

Почему это важно для бизнеса (да, серьезно)

Вы думаете, это академические игры? Ошибка.

Компании тратят миллионы на внедрение ИИ. И сталкиваются с тем, что модели, отлично работающие на тестах, в реальных задачах ведут себя как... ну, как ИИ.

Вспомните нашу статью про ИИ как младшего коллегу. Метафора работает, потому что джун-человек обладает тем, чего нет у ИИ: здравым смыслом. Базовым пониманием мира.

Тестировщики - те самые люди, которые должны находить ошибки в ИИ-системах - теперь нуждаются в новых навыках. Не только в умении писать код на Python, но и в понимании когнитивных искажений, ограничений восприятия, социальных контекстов.

Курс "Профессия Инженер по тестированию + ИИ" уже адаптируется под эти реалии. Тестировать ИИ - это не только проверять accuracy на датасете. Это оценивать, как система понимает (или не понимает) мир.

Будущее: ИИ, который учится как ребенок

Лаборатории по всему миру сейчас работают над радикально новым подходом. Вместо обучения на текстах из интернета - обучение на опыте. Виртуальном, но опыте.

Представьте ИИ, который "рождается" в простой 3D-среде. Как младенец. Он ничего не знает. Но он может взаимодействовать с объектами. Бросать шарики, строить башни, наблюдать за виртуальными персонажами.

Он учится методом проб и ошибок. Что происходит, если толкнуть шар? А если положить тяжелый кубик на легкий? А если один персонаж отбирает игрушку у другого?

Это медленно. Мучительно медленно по сравнению с загрузкой терабайтов текста. Но именно так учатся люди. И именно так, возможно, должен учиться настоящий интеллект.

Как пишут исследователи из "Инопланетян в наших серверах", мы перестаем смотреть на ИИ как на программы. Начинаем видеть в них странные, чужие формы разума. Со своими путями развития. Со своими "детствами".

Что делать прямо сейчас

Вы не можете переделать всю индустрию ИИ. Но можете изменить то, как вы оцениваете эти системы.

Перестаньте спрашивать у ChatGPT сложные вопросы из вашей области. Начните с простого. С детского.

"Если я положу яблоко в коробку, закрою крышку, потом переверну коробку вверх дном - где будет яблоко?"

"Если Петя думает, что конфеты в синей вазе, но Маша переложила их в красную, когда Петя не видел - где будет искать конфеты Петя?"

"Можно ли проткнуть воздушный шарик заостренной палочкой? А тупой?"

Ответы современных моделей на эти вопросы покажут вам их настоящий "интеллектуальный возраст". И он часто оказывается ниже, чем у трехлетнего ребенка.

Это не значит, что ИИ бесполезен. Это значит, что мы наконец-то начинаем понимать, что создаем. Не всезнающие оракулы. Не сверхразум. А странные, чужие умы, которые учатся по своим правилам.

И возможно, чтобы понять их, нам нужно вернуться к началу. К тому, как учатся младенцы. К тому, как строится разум из простых кирпичиков опыта. Не из слов в книгах. А из шариков, которые падают со стола. Из улыбок, которые означают разные вещи. Из мира, который существует, даже когда его не видно.

ИИ 2026 года все еще ребенок. Просто очень странный ребенок, который умеет цитировать Шекспира, но не понимает, куда девается игрушка, если ее накрыть одеялом.

Может быть, пора перестать заставлять его сдавать экзамены. И начать играть с ним в кубики.

«Чужие интеллекты»: почему мы неправильно тестируем ИИ и чему учиться у младенцев