Что такое фреймворк DeepMind для оценки AGI?

Это научная работа, предлагающая десять конкретных когнитивных способностей (например, причинно-следственное рассуждение, теория сознания, адаптивный перенос навыков) в качестве критериев для измерения искусственного общего интеллекта, а не отдельных узких умений.

Какие современные модели ИИ проходят этот тест?

По данным на март 2026 года, ни одна модель (включая GPT-5, Gemini 3 Ultra, Claude 4 Opus) не демонстрирует все десять способностей на высоком уровне. Некоторые узкие модели показывают хорошие результаты в отдельных областях, например, в абстрактном рассуждении.

Почему этот фреймворк важен для развития ИИ?

Он переводит дискуссию об AGI из философской плоскости в практическую, предлагая четкие, измеримые цели для исследований. Это может сместить фокус индустрии с увеличения размера моделей на улучшение глубины понимания и гибкости интеллекта.

DeepMind представила фреймворк оценки AGI: 10 ключевых способностей

DeepMind решила, что нам пора перестать гадать

Споры о том, что такое AGI и когда он появится, напоминают средневековые диспуты о количестве ангелов на кончике иглы. Все говорят, никто не понимает, а метрики каждый придумывает свои. DeepMind, кажется, устала от этого цирка. 21 марта 2026 года исследовательский гигант опубликовал работу под названием "A Cognitive Framework for General Intelligence Assessment" — попытку заменить философские рассуждения конкретным чек-листом.

Если раньше мы судили о продвинутости ИИ по умению играть в шахматы или генерировать картинки котиков, то теперь есть десять четких измерений. И самое интересное — ни одна из существующих моделей, включая разрекламированные GPT-5, Gemini 3 Ultra или Claude 4 Opus, не проходит этот тест полностью.

Фреймворк пока не является официальным стандартом, но уже вызвал оживленную дискуссию в научном сообществе. Многие видят в нем первую серьезную попытку перенести критерии из когнитивной психологии в машинное обучение.

Десять рубежей, которые не взять одной архитектурой

Авторы работы — группа нейробиологов и специалистов по машинному обучению — потратили полтора года на анализ сотен исследований. Итог: десять взаимосвязанных, но независимых способностей. Отсутствие любой из них ставит крест на претензиях на общий интеллект.

Способность	Что это значит	Пример теста
Симуляция и ментальные модели	Способность предсказывать последствия действий в уме, без реального взаимодействия со средой.	Спросить, что произойдет, если толкнуть шаткую вазу со стола. Нужно описать физику, звук, результат.
Причинно-следственное рассуждение	Выделение скрытых причин из наблюдаемых корреляций. Не просто "A и B случаются вместе", а "A вызывает B".	Даны данные о здоровье и образе жизни. Определить, курение ли вызывает рак или это совпадение.
Контрфактическое мышление	Анализ событий, которые не произошли, но могли бы. "Что, если бы я вчера взял зонт?".	Объяснить, как изменилась бы история, если бы в 1914 году не убили эрцгерцога Фердинанда.
Иерархическое планирование	Умение разбивать сложные долгосрочные цели на последовательность простых шагов с вложенными подцелями.	Запланировать переезд в другую страну на год вперед, учитывая визы, работу, жилье, язык.
Композиционное обобщение	Понимание и применение знакомых концепций в совершенно новых комбинациях и контекстах.	После обучения понятиям "красный" и "квадрат" сразу понять инструкцию "найди зеленый квадрат".
Теория сознания (ToM)	Приписывание ментальных состояний другим агентам: знания, намерения, убеждения, эмоции.	Сюжетная задача, где персонаж не знает, что сейф уже опустошен, и модель должна это предсказать.
Непрерывное обучение без катастрофического забывания	Накопление знаний из последовательных задач без стирания ранее изученных навыков.	Сначала научиться играть в шахматы, потом в го, и при этом не разучиться играть в шахматы.
Метапознание и калибровка уверенности	Способность оценивать надежность собственных знаний и суждений. Знать, чего не знаешь.	Задать сложный вопрос. Модель должна не только ответить, но и оценить вероятность своей ошибки.
Адаптивный перенос навыков	Использование знаний из одной области для решения проблем в другой, внешне не связанной.	Применить стратегию из игры в покер для ведения переговоров о зарплате.
Интуитивная физика и психология	Базовое, донаучное понимание законов физического и социального мира, которое есть у младенцев.	Понимать, что неподдерживаемый объект упадет, а человек, ищущий ключи, хочет открыть дверь.

Звучит как описание идеального студента-отличника, верно? Проблема в том, что современные LLM демонстрируют эти способности фрагментарно и неустойчиво. Мультимодальность, как мы писали, не решает проблему фундаментального понимания. Модель может описать картинку с вазой, но не смоделирует ее падение.

Провалы там, где мы ждали успеха

Возьмем симуляцию и ментальные модели. Проект Genie 3 от той же DeepMind учит агентов предсказывать кадры видео. Но это предсказание паттернов пикселей, а не построение абстрактной модели мира. Система не знает, что ваза сделана из хрупкого фарфора, а пол — из твердого дерева. Она просто угадывает следующий кадр на основе статистики.

С контрфактическим мышлением еще хуже. LLM генерируют правдоподобные альтернативные истории, но делают это как писатели-фантасты, а не как ученые, проверяющие гипотезы. Они не вычисляют наиболее вероятные точки расхождения причинно-следственных цепочек. Это просто еще один текст по шаблону.

💡

Ирония в том, что некоторые узкие модели иногда показывают проблески этих способностей в неожиданных местах. Например, Qwen2.5 7B неплохо справляется с задачами ARC-AGI на абстрактное рассуждение, а микро-модель от Bitterbot AI бьет рекорды в ARC-AGI-2. Но это — узкие специалисты, а не генералисты.

Так зачем это все?

Фреймворк DeepMind — не просто академическое упражнение. Это прямой вызов индустрии, которая застряла в гонке параметров и токенов контекста. Он смещает фокус с "больше и быстрее" на "качественнее и глубже".

Этот чек-лист уже сейчас используют для оценки новых архитектур. Например, в закрытых альфа-тестах Gemini 3 Deep Think или при разработке роботов-генералистов в Яндекс Роботикс. Провал по пункту "непрерывное обучение" ставит крест на использовании модели как долгоживущего персонального ассистента. Отсутствие Theory of Mind делает бессмысленным разговор об игровых ИИ-компаньонах — они не смогут предугадать намерения других игроков.

Главный подвох фреймворка — его междисциплинарность. Для его реализации нужны не только инженеры данных, но и когнитивные психологи, лингвисты, философы. Большинство AI-лабораторий к такой работе не готовы. Их сила — масштабирование, а не тонкая настройка когнитивных функций.

Что дальше? Гонка за AGI превратится из спринта в многоборье. Вместо одной гигантской модели мы увидим экосистемы узких экспертов, пытающихся имитировать эти десять способностей. Или появится принципиально новая архитектура, которая родится уже с учетом этого фреймворка. DeepMind, между прочим, активно работает над второй опцией.

Мой прогноз на 2027-2028 год: первая модель, которая пройдет все десять тестов выше порога в 90%, не будет похожа ни на Transformer, ни на Diffusion. Она будет черпать вдохновение в нейробиологии. И самое смешное — она, вероятно, будет учиться не на терабайтах текста из интернета, а на значительно меньших, но тщательно сконструированных данных, как учат ребенка. Может, тогда мы перестанем гадать и наконец увидим, как выглядит искусственный интеллект, который действительно думает. А не просто угадывает следующее слово.

Подписаться на канал

Фреймворк DeepMind для измерения AGI: какие 10 когнитивных способностей определяют искусственный общий интеллект

DeepMind решила, что нам пора перестать гадать

Десять рубежей, которые не взять одной архитектурой

Провалы там, где мы ждали успеха

Так зачем это все?

Подписывайтесь на наш канал!