DeepMind решила, что нам пора перестать гадать
Споры о том, что такое AGI и когда он появится, напоминают средневековые диспуты о количестве ангелов на кончике иглы. Все говорят, никто не понимает, а метрики каждый придумывает свои. DeepMind, кажется, устала от этого цирка. 21 марта 2026 года исследовательский гигант опубликовал работу под названием "A Cognitive Framework for General Intelligence Assessment" — попытку заменить философские рассуждения конкретным чек-листом.
Если раньше мы судили о продвинутости ИИ по умению играть в шахматы или генерировать картинки котиков, то теперь есть десять четких измерений. И самое интересное — ни одна из существующих моделей, включая разрекламированные GPT-5, Gemini 3 Ultra или Claude 4 Opus, не проходит этот тест полностью.
Фреймворк пока не является официальным стандартом, но уже вызвал оживленную дискуссию в научном сообществе. Многие видят в нем первую серьезную попытку перенести критерии из когнитивной психологии в машинное обучение.
Десять рубежей, которые не взять одной архитектурой
Авторы работы — группа нейробиологов и специалистов по машинному обучению — потратили полтора года на анализ сотен исследований. Итог: десять взаимосвязанных, но независимых способностей. Отсутствие любой из них ставит крест на претензиях на общий интеллект.
| Способность | Что это значит | Пример теста |
|---|---|---|
| Симуляция и ментальные модели | Способность предсказывать последствия действий в уме, без реального взаимодействия со средой. | Спросить, что произойдет, если толкнуть шаткую вазу со стола. Нужно описать физику, звук, результат. |
| Причинно-следственное рассуждение | Выделение скрытых причин из наблюдаемых корреляций. Не просто "A и B случаются вместе", а "A вызывает B". | Даны данные о здоровье и образе жизни. Определить, курение ли вызывает рак или это совпадение. |
| Контрфактическое мышление | Анализ событий, которые не произошли, но могли бы. "Что, если бы я вчера взял зонт?". | Объяснить, как изменилась бы история, если бы в 1914 году не убили эрцгерцога Фердинанда. |
| Иерархическое планирование | Умение разбивать сложные долгосрочные цели на последовательность простых шагов с вложенными подцелями. | Запланировать переезд в другую страну на год вперед, учитывая визы, работу, жилье, язык. |
| Композиционное обобщение | Понимание и применение знакомых концепций в совершенно новых комбинациях и контекстах. | После обучения понятиям "красный" и "квадрат" сразу понять инструкцию "найди зеленый квадрат". |
| Теория сознания (ToM) | Приписывание ментальных состояний другим агентам: знания, намерения, убеждения, эмоции. | Сюжетная задача, где персонаж не знает, что сейф уже опустошен, и модель должна это предсказать. |
| Непрерывное обучение без катастрофического забывания | Накопление знаний из последовательных задач без стирания ранее изученных навыков. | Сначала научиться играть в шахматы, потом в го, и при этом не разучиться играть в шахматы. |
| Метапознание и калибровка уверенности | Способность оценивать надежность собственных знаний и суждений. Знать, чего не знаешь. | Задать сложный вопрос. Модель должна не только ответить, но и оценить вероятность своей ошибки. |
| Адаптивный перенос навыков | Использование знаний из одной области для решения проблем в другой, внешне не связанной. | Применить стратегию из игры в покер для ведения переговоров о зарплате. |
| Интуитивная физика и психология | Базовое, донаучное понимание законов физического и социального мира, которое есть у младенцев. | Понимать, что неподдерживаемый объект упадет, а человек, ищущий ключи, хочет открыть дверь. |
Звучит как описание идеального студента-отличника, верно? Проблема в том, что современные LLM демонстрируют эти способности фрагментарно и неустойчиво. Мультимодальность, как мы писали, не решает проблему фундаментального понимания. Модель может описать картинку с вазой, но не смоделирует ее падение.
Провалы там, где мы ждали успеха
Возьмем симуляцию и ментальные модели. Проект Genie 3 от той же DeepMind учит агентов предсказывать кадры видео. Но это предсказание паттернов пикселей, а не построение абстрактной модели мира. Система не знает, что ваза сделана из хрупкого фарфора, а пол — из твердого дерева. Она просто угадывает следующий кадр на основе статистики.
С контрфактическим мышлением еще хуже. LLM генерируют правдоподобные альтернативные истории, но делают это как писатели-фантасты, а не как ученые, проверяющие гипотезы. Они не вычисляют наиболее вероятные точки расхождения причинно-следственных цепочек. Это просто еще один текст по шаблону.
Так зачем это все?
Фреймворк DeepMind — не просто академическое упражнение. Это прямой вызов индустрии, которая застряла в гонке параметров и токенов контекста. Он смещает фокус с "больше и быстрее" на "качественнее и глубже".
Этот чек-лист уже сейчас используют для оценки новых архитектур. Например, в закрытых альфа-тестах Gemini 3 Deep Think или при разработке роботов-генералистов в Яндекс Роботикс. Провал по пункту "непрерывное обучение" ставит крест на использовании модели как долгоживущего персонального ассистента. Отсутствие Theory of Mind делает бессмысленным разговор об игровых ИИ-компаньонах — они не смогут предугадать намерения других игроков.
Главный подвох фреймворка — его междисциплинарность. Для его реализации нужны не только инженеры данных, но и когнитивные психологи, лингвисты, философы. Большинство AI-лабораторий к такой работе не готовы. Их сила — масштабирование, а не тонкая настройка когнитивных функций.
Что дальше? Гонка за AGI превратится из спринта в многоборье. Вместо одной гигантской модели мы увидим экосистемы узких экспертов, пытающихся имитировать эти десять способностей. Или появится принципиально новая архитектура, которая родится уже с учетом этого фреймворка. DeepMind, между прочим, активно работает над второй опцией.
Мой прогноз на 2027-2028 год: первая модель, которая пройдет все десять тестов выше порога в 90%, не будет похожа ни на Transformer, ни на Diffusion. Она будет черпать вдохновение в нейробиологии. И самое смешное — она, вероятно, будет учиться не на терабайтах текста из интернета, а на значительно меньших, но тщательно сконструированных данных, как учат ребенка. Может, тогда мы перестанем гадать и наконец увидим, как выглядит искусственный интеллект, который действительно думает. А не просто угадывает следующее слово.