AAAI 2026 итоги: тренды ИИ, эксперимент с LLM-рецензентами, Сингапур

Пять дней в Сингапуре, где ИИ перестал быть просто большими языковыми моделями

AAAI 2026 завершился три дня назад, оставив после себя 40 градусов жары, 1200 принятых докладов и одно неловкое признание: мы все еще не знаем, как оценивать исследования по ИИ. Особенно если за оценку берутся другие ИИ.

Конференция вернулась в Сингапур впервые с 2020 года, и атмосфера была электрической. Не только из-за влажности. После двух лет доминирования LLM в повестке, в 2026 году произошел заметный сдвиг. Вместо очередных вариаций на тему "как улучшить accuracy на 0.3%" - разговоры о фундаментальных ограничениях, интеграции подходов и, что самое интересное, о провале одного масштабного эксперимента.

Ключевая статистика AAAI 2026: 4500 участников очно, 1200 принятых докладов из 6800 поданых (17.6% acceptance rate), 12 параллельных треков в пиковые дни. Сингапурский Suntec Convention Centre превратился в лабиринт из постеров, кофе-столов и людей, спорющих о символьном выводе в 2026 году.

Эксперимент, который все обсуждали, но никто не афишировал

Официально организаторы AAAI этого не признавали. Неофициально - каждый второй участник шептался об этом в кулуарах. В этом году программа комитет тайно использовал LLM в качестве первого этапа рецензирования для части submissions.

Результаты? Катастрофические.

"Мы использовали ансамбль из GPT-4.5, Claude 3.7 и Gemini 2.0 Ultra," - рассказал мне один из членов программного комитета, попросивший не называть его имени. "Идея была проста: отфильтровать явно слабые работы, чтобы эксперты-люди могли сосредоточиться на пограничных случаях."

Что пошло не так? Практически все.

LLM последовательно занижали оценки инновационным работам на стыке дисциплин
Модели "предпочитали" исследования с четкой структурой "введение-метод-эксперименты-выводы", даже если содержательно работа была слабой
Математически сложные доказательства получали случайные оценки - от 1 до 5 без внятного обоснования
Работы с нестандартными форматами (например, философские эссе об этике ИИ) автоматически получали рекомендацию к отклонению

"Самое забавное," - продолжает мой источник, - "что когда мы дали эти же LLM оценить уже принятые на AAAI 2025 работы, они отвергли бы 40% из них. Включая две работы, получившие награды."

💡

Этот эксперимент перекликается с недавними исследованиями о том, как формальные критерии оценки LLM часто важнее рейтинговых таблиц. Оказывается, те же проблемы возникают, когда LLM оценивают не другие модели, а научные работы.

Нейросимвольный ИИ: возвращение короля, которого никто не ждал

Если в 2024-2025 нейросимвольные подходы считались нишевой темой для энтузиастов, в 2026 они вышли на главную сцену. Из 12 пленарных докладов три были посвящены именно интеграции нейронных и символьных методов.

Профессор Люси Чжан из MIT представила NeuroSymbolic-2.0 - фреймворк, где LLM генерируют символьные правила, которые затем исполняются детерминированно. "Мы больше не пытаемся заставить нейросеть понимать логику," - сказала она. "Мы заставляем логику понимать, что нагенерировала нейросеть."

Практический пример из ее доклада: система, которая анализирует юридические документы с помощью локальной LLM, извлекает условия контрактов, преобразует их в формальные правила на JSON, а затем использует эти правила для автоматической проверки соответствия. Точность: 94% против 78% у чистой GPT-4.5. Объяснимость: 100% против "я думаю, вот что здесь написано".

Тренд	Доля докладов	Ключевая мысль
Нейросимвольная интеграция	18%	LLM как генераторы правил, а не исполнители
Когнитивное архитектуры	12%	Как мозг, только с gradient descent
RL с человеческим oversight	9%	Без человека в цикле - катастрофа
Мультимодальность 2.0	15%	Не просто "картинка + текст", а единое представление

Reinforcement Learning: от золотой лихорадки к реализму

Пять лет назад RL был синонимом прорыва. AlphaGo, Dota 2, StarCraft. В 2026 ситуация иная. Основной тон докладов по RL: "Это сложно, дорого, и часто не работает в реальном мире."

Доклад команды из Google DeepMind о провале RL-системы для управления цепочками поставок стал одним из самых цитируемых. Они потратили 8 месяцев и $2.3 млн на обучение модели, которая в итоге проиграла простому rule-based алгоритму 1980-х годов. Причина? "Реальность не похожа на симуляцию."

Тренд, который заметили все: смещение от чистого RL к гибридным подходам. RL для exploration, символьные правила для exploitation. Или как сказал один из спикеров: "Дайте модели возможность учиться, но не дайте ей возможность наделать глупостей."

Это напрямую связано с растущим интересом к слоям исполнения правил на JSON - технологии, которая из академической curiosities превратилась в must-have для production систем.

Что будет с ИИ через год? Прогнозы от тех, кто их создает

В кулуарах AAAI я спросил у десятка ведущих исследователей: "Что из представленного здесь станет mainstream через 12 месяцев?" Ответы удивительно совпали:

Локальные специализированные модели вместо гигантских универсальных. Зачем платить за GPT-5, если для анализа медицинских изображений хватит модели в 7B параметров, дообученной на конкретном датасете? Тренд на локальные LLM, который начался в 2025, только ускорится.
ИИ-агенты, которые признают свои ограничения. Вместо "я могу все" - "я могу это, но для того вам нужен другой инструмент". Системы становятся скромнее и, как ни парадоксально, полезнее.
Формальная верификация поведения ИИ. После скандалов с hallucinations в критических приложениях (медицина, юриспруденция), требование "докажи, что не навредишь" станет стандартом.

Один прогноз, который повторяли особенно часто: "2027 год станет годом, когда бизнес перестанет спрашивать 'что может ИИ' и начнет спрашивать 'как заставить этот ИИ делать то, что нам нужно, а не то, что ему хочется'."

Интересный факт: согласно исследованию об impact LLM на работу, 68% разработчиков ИИ уже используют ИИ-инструменты для написания кода. На AAAI 2026 этот процент был ближе к 90. Ирония в том, что те, кто создает ИИ, больше всего полагаются на ИИ в своей работе.

Самые обсуждаемые доклады, которые вы пропустили

Из 1200 докладов несколько выделялись даже на фоне общей высокой планки:

"Cognitive Architecture for LLMs: Beyond Transformer" - работа, предлагающая заменить attention механизмы на нейробиологически вдохновленные архитектуры. Результаты скромные (+2% на reasoning tasks), но направление признали многообещающим.
"The Illusion of Understanding in Multimodal Models" - жесткая критика современных мультимодальных систем. Авторы показали, что модели, "описывающие" изображения, на самом деле генерируют правдоподобный текст на основе статистических закономерностей, а не понимания содержания.
"Energy-Efficient Training of 100B Parameter Models on Consumer Hardware" - обещание, которое звучит как science fiction, но с подробными вычислениями. Если это не преувеличение, может изменить всю экономику ИИ.

Что объединяет эти работы? Скептицизм по отношению к текущим парадигмам. После нескольких лет эйфории от масштабирования, сообщество переходит к фазе критического переосмысления.

Итог: AAAI 2026 как поворотный момент

Конференция в Сингапуре запомнится не прорывными результатами на benchmark'ах, а изменением самого подхода к исследованиям. Три ключевых сигнала:

1. Критика методов стала легитимной. Два года назад доклад, показывающий ограничения трансформеров, вряд ли бы приняли. В 2026 таких докладов были десятки.

2. Интеграция > инновация. Лучшие работы не предлагали радикально новые алгоритмы, а грамотно комбинировали существующие подходы из разных областей.

3. Практичность победила академичность. Вопрос "а это будет работать вне лаборатории?" звучал на каждой сессии Q&A.

Что это значит для вас? Если вы разрабатываете ИИ-продукты, присмотритесь к нейросимвольным подходам - они перестали быть теоретическими. Если вы исследователь - не бойтесь критиковать мейнстрим. Если вы просто следите за областью - готовьтесь к тому, что следующие прорывы будут выглядеть менее эффектно, но работать более надежно.

И последнее: эксперимент с LLM-рецензентами, скорее всего, положит конец разговорам о полной автоматизации научной оценки. Что, честно говоря, немного утешает. Пока ИИ не может адекватно оценить другие ИИ, у нас еще есть работа.

AAAI 2026: нейросимвольный ренессанс, провал LLM-рецензентов и конец эпохи чистого RL