DeepMind представила фреймворк оценки AGI: 10 ключевых способностей | AiManual
AiManual Logo Ai / Manual.
22 Мар 2026 Новости

Фреймворк DeepMind для измерения AGI: какие 10 когнитивных способностей определяют искусственный общий интеллект

DeepMind анонсировала новый фреймворк для измерения AGI. Узнайте, какие 10 когнитивных способностей определяют настоящий искусственный интеллект и как текущие м

DeepMind решила, что нам пора перестать гадать

Споры о том, что такое AGI и когда он появится, напоминают средневековые диспуты о количестве ангелов на кончике иглы. Все говорят, никто не понимает, а метрики каждый придумывает свои. DeepMind, кажется, устала от этого цирка. 21 марта 2026 года исследовательский гигант опубликовал работу под названием "A Cognitive Framework for General Intelligence Assessment" — попытку заменить философские рассуждения конкретным чек-листом.

Если раньше мы судили о продвинутости ИИ по умению играть в шахматы или генерировать картинки котиков, то теперь есть десять четких измерений. И самое интересное — ни одна из существующих моделей, включая разрекламированные GPT-5, Gemini 3 Ultra или Claude 4 Opus, не проходит этот тест полностью.

Фреймворк пока не является официальным стандартом, но уже вызвал оживленную дискуссию в научном сообществе. Многие видят в нем первую серьезную попытку перенести критерии из когнитивной психологии в машинное обучение.

Десять рубежей, которые не взять одной архитектурой

Авторы работы — группа нейробиологов и специалистов по машинному обучению — потратили полтора года на анализ сотен исследований. Итог: десять взаимосвязанных, но независимых способностей. Отсутствие любой из них ставит крест на претензиях на общий интеллект.

СпособностьЧто это значитПример теста
Симуляция и ментальные моделиСпособность предсказывать последствия действий в уме, без реального взаимодействия со средой.Спросить, что произойдет, если толкнуть шаткую вазу со стола. Нужно описать физику, звук, результат.
Причинно-следственное рассуждениеВыделение скрытых причин из наблюдаемых корреляций. Не просто "A и B случаются вместе", а "A вызывает B".Даны данные о здоровье и образе жизни. Определить, курение ли вызывает рак или это совпадение.
Контрфактическое мышлениеАнализ событий, которые не произошли, но могли бы. "Что, если бы я вчера взял зонт?".Объяснить, как изменилась бы история, если бы в 1914 году не убили эрцгерцога Фердинанда.
Иерархическое планированиеУмение разбивать сложные долгосрочные цели на последовательность простых шагов с вложенными подцелями.Запланировать переезд в другую страну на год вперед, учитывая визы, работу, жилье, язык.
Композиционное обобщениеПонимание и применение знакомых концепций в совершенно новых комбинациях и контекстах.После обучения понятиям "красный" и "квадрат" сразу понять инструкцию "найди зеленый квадрат".
Теория сознания (ToM)Приписывание ментальных состояний другим агентам: знания, намерения, убеждения, эмоции.Сюжетная задача, где персонаж не знает, что сейф уже опустошен, и модель должна это предсказать.
Непрерывное обучение без катастрофического забыванияНакопление знаний из последовательных задач без стирания ранее изученных навыков.Сначала научиться играть в шахматы, потом в го, и при этом не разучиться играть в шахматы.
Метапознание и калибровка уверенностиСпособность оценивать надежность собственных знаний и суждений. Знать, чего не знаешь.Задать сложный вопрос. Модель должна не только ответить, но и оценить вероятность своей ошибки.
Адаптивный перенос навыковИспользование знаний из одной области для решения проблем в другой, внешне не связанной.Применить стратегию из игры в покер для ведения переговоров о зарплате.
Интуитивная физика и психологияБазовое, донаучное понимание законов физического и социального мира, которое есть у младенцев.Понимать, что неподдерживаемый объект упадет, а человек, ищущий ключи, хочет открыть дверь.

Звучит как описание идеального студента-отличника, верно? Проблема в том, что современные LLM демонстрируют эти способности фрагментарно и неустойчиво. Мультимодальность, как мы писали, не решает проблему фундаментального понимания. Модель может описать картинку с вазой, но не смоделирует ее падение.

Провалы там, где мы ждали успеха

Возьмем симуляцию и ментальные модели. Проект Genie 3 от той же DeepMind учит агентов предсказывать кадры видео. Но это предсказание паттернов пикселей, а не построение абстрактной модели мира. Система не знает, что ваза сделана из хрупкого фарфора, а пол — из твердого дерева. Она просто угадывает следующий кадр на основе статистики.

С контрфактическим мышлением еще хуже. LLM генерируют правдоподобные альтернативные истории, но делают это как писатели-фантасты, а не как ученые, проверяющие гипотезы. Они не вычисляют наиболее вероятные точки расхождения причинно-следственных цепочек. Это просто еще один текст по шаблону.

💡
Ирония в том, что некоторые узкие модели иногда показывают проблески этих способностей в неожиданных местах. Например, Qwen2.5 7B неплохо справляется с задачами ARC-AGI на абстрактное рассуждение, а микро-модель от Bitterbot AI бьет рекорды в ARC-AGI-2. Но это — узкие специалисты, а не генералисты.

Так зачем это все?

Фреймворк DeepMind — не просто академическое упражнение. Это прямой вызов индустрии, которая застряла в гонке параметров и токенов контекста. Он смещает фокус с "больше и быстрее" на "качественнее и глубже".

Этот чек-лист уже сейчас используют для оценки новых архитектур. Например, в закрытых альфа-тестах Gemini 3 Deep Think или при разработке роботов-генералистов в Яндекс Роботикс. Провал по пункту "непрерывное обучение" ставит крест на использовании модели как долгоживущего персонального ассистента. Отсутствие Theory of Mind делает бессмысленным разговор об игровых ИИ-компаньонах — они не смогут предугадать намерения других игроков.

Главный подвох фреймворка — его междисциплинарность. Для его реализации нужны не только инженеры данных, но и когнитивные психологи, лингвисты, философы. Большинство AI-лабораторий к такой работе не готовы. Их сила — масштабирование, а не тонкая настройка когнитивных функций.

Что дальше? Гонка за AGI превратится из спринта в многоборье. Вместо одной гигантской модели мы увидим экосистемы узких экспертов, пытающихся имитировать эти десять способностей. Или появится принципиально новая архитектура, которая родится уже с учетом этого фреймворка. DeepMind, между прочим, активно работает над второй опцией.

Мой прогноз на 2027-2028 год: первая модель, которая пройдет все десять тестов выше порога в 90%, не будет похожа ни на Transformer, ни на Diffusion. Она будет черпать вдохновение в нейробиологии. И самое смешное — она, вероятно, будет учиться не на терабайтах текста из интернета, а на значительно меньших, но тщательно сконструированных данных, как учат ребенка. Может, тогда мы перестанем гадать и наконец увидим, как выглядит искусственный интеллект, который действительно думает. А не просто угадывает следующее слово.

Подписаться на канал