Пять дней в Сингапуре, где ИИ перестал быть просто большими языковыми моделями
AAAI 2026 завершился три дня назад, оставив после себя 40 градусов жары, 1200 принятых докладов и одно неловкое признание: мы все еще не знаем, как оценивать исследования по ИИ. Особенно если за оценку берутся другие ИИ.
Конференция вернулась в Сингапур впервые с 2020 года, и атмосфера была электрической. Не только из-за влажности. После двух лет доминирования LLM в повестке, в 2026 году произошел заметный сдвиг. Вместо очередных вариаций на тему "как улучшить accuracy на 0.3%" - разговоры о фундаментальных ограничениях, интеграции подходов и, что самое интересное, о провале одного масштабного эксперимента.
Ключевая статистика AAAI 2026: 4500 участников очно, 1200 принятых докладов из 6800 поданых (17.6% acceptance rate), 12 параллельных треков в пиковые дни. Сингапурский Suntec Convention Centre превратился в лабиринт из постеров, кофе-столов и людей, спорющих о символьном выводе в 2026 году.
Эксперимент, который все обсуждали, но никто не афишировал
Официально организаторы AAAI этого не признавали. Неофициально - каждый второй участник шептался об этом в кулуарах. В этом году программа комитет тайно использовал LLM в качестве первого этапа рецензирования для части submissions.
Результаты? Катастрофические.
"Мы использовали ансамбль из GPT-4.5, Claude 3.7 и Gemini 2.0 Ultra," - рассказал мне один из членов программного комитета, попросивший не называть его имени. "Идея была проста: отфильтровать явно слабые работы, чтобы эксперты-люди могли сосредоточиться на пограничных случаях."
Что пошло не так? Практически все.
- LLM последовательно занижали оценки инновационным работам на стыке дисциплин
- Модели "предпочитали" исследования с четкой структурой "введение-метод-эксперименты-выводы", даже если содержательно работа была слабой
- Математически сложные доказательства получали случайные оценки - от 1 до 5 без внятного обоснования
- Работы с нестандартными форматами (например, философские эссе об этике ИИ) автоматически получали рекомендацию к отклонению
"Самое забавное," - продолжает мой источник, - "что когда мы дали эти же LLM оценить уже принятые на AAAI 2025 работы, они отвергли бы 40% из них. Включая две работы, получившие награды."
Нейросимвольный ИИ: возвращение короля, которого никто не ждал
Если в 2024-2025 нейросимвольные подходы считались нишевой темой для энтузиастов, в 2026 они вышли на главную сцену. Из 12 пленарных докладов три были посвящены именно интеграции нейронных и символьных методов.
Профессор Люси Чжан из MIT представила NeuroSymbolic-2.0 - фреймворк, где LLM генерируют символьные правила, которые затем исполняются детерминированно. "Мы больше не пытаемся заставить нейросеть понимать логику," - сказала она. "Мы заставляем логику понимать, что нагенерировала нейросеть."
Практический пример из ее доклада: система, которая анализирует юридические документы с помощью локальной LLM, извлекает условия контрактов, преобразует их в формальные правила на JSON, а затем использует эти правила для автоматической проверки соответствия. Точность: 94% против 78% у чистой GPT-4.5. Объяснимость: 100% против "я думаю, вот что здесь написано".
| Тренд | Доля докладов | Ключевая мысль |
|---|---|---|
| Нейросимвольная интеграция | 18% | LLM как генераторы правил, а не исполнители |
| Когнитивное архитектуры | 12% | Как мозг, только с gradient descent |
| RL с человеческим oversight | 9% | Без человека в цикле - катастрофа |
| Мультимодальность 2.0 | 15% | Не просто "картинка + текст", а единое представление |
Reinforcement Learning: от золотой лихорадки к реализму
Пять лет назад RL был синонимом прорыва. AlphaGo, Dota 2, StarCraft. В 2026 ситуация иная. Основной тон докладов по RL: "Это сложно, дорого, и часто не работает в реальном мире."
Доклад команды из Google DeepMind о провале RL-системы для управления цепочками поставок стал одним из самых цитируемых. Они потратили 8 месяцев и $2.3 млн на обучение модели, которая в итоге проиграла простому rule-based алгоритму 1980-х годов. Причина? "Реальность не похожа на симуляцию."
Тренд, который заметили все: смещение от чистого RL к гибридным подходам. RL для exploration, символьные правила для exploitation. Или как сказал один из спикеров: "Дайте модели возможность учиться, но не дайте ей возможность наделать глупостей."
Это напрямую связано с растущим интересом к слоям исполнения правил на JSON - технологии, которая из академической curiosities превратилась в must-have для production систем.
Что будет с ИИ через год? Прогнозы от тех, кто их создает
В кулуарах AAAI я спросил у десятка ведущих исследователей: "Что из представленного здесь станет mainstream через 12 месяцев?" Ответы удивительно совпали:
- Локальные специализированные модели вместо гигантских универсальных. Зачем платить за GPT-5, если для анализа медицинских изображений хватит модели в 7B параметров, дообученной на конкретном датасете? Тренд на локальные LLM, который начался в 2025, только ускорится.
- ИИ-агенты, которые признают свои ограничения. Вместо "я могу все" - "я могу это, но для того вам нужен другой инструмент". Системы становятся скромнее и, как ни парадоксально, полезнее.
- Формальная верификация поведения ИИ. После скандалов с hallucinations в критических приложениях (медицина, юриспруденция), требование "докажи, что не навредишь" станет стандартом.
Один прогноз, который повторяли особенно часто: "2027 год станет годом, когда бизнес перестанет спрашивать 'что может ИИ' и начнет спрашивать 'как заставить этот ИИ делать то, что нам нужно, а не то, что ему хочется'."
Интересный факт: согласно исследованию об impact LLM на работу, 68% разработчиков ИИ уже используют ИИ-инструменты для написания кода. На AAAI 2026 этот процент был ближе к 90. Ирония в том, что те, кто создает ИИ, больше всего полагаются на ИИ в своей работе.
Самые обсуждаемые доклады, которые вы пропустили
Из 1200 докладов несколько выделялись даже на фоне общей высокой планки:
- "Cognitive Architecture for LLMs: Beyond Transformer" - работа, предлагающая заменить attention механизмы на нейробиологически вдохновленные архитектуры. Результаты скромные (+2% на reasoning tasks), но направление признали многообещающим.
- "The Illusion of Understanding in Multimodal Models" - жесткая критика современных мультимодальных систем. Авторы показали, что модели, "описывающие" изображения, на самом деле генерируют правдоподобный текст на основе статистических закономерностей, а не понимания содержания.
- "Energy-Efficient Training of 100B Parameter Models on Consumer Hardware" - обещание, которое звучит как science fiction, но с подробными вычислениями. Если это не преувеличение, может изменить всю экономику ИИ.
Что объединяет эти работы? Скептицизм по отношению к текущим парадигмам. После нескольких лет эйфории от масштабирования, сообщество переходит к фазе критического переосмысления.
Итог: AAAI 2026 как поворотный момент
Конференция в Сингапуре запомнится не прорывными результатами на benchmark'ах, а изменением самого подхода к исследованиям. Три ключевых сигнала:
1. Критика методов стала легитимной. Два года назад доклад, показывающий ограничения трансформеров, вряд ли бы приняли. В 2026 таких докладов были десятки.
2. Интеграция > инновация. Лучшие работы не предлагали радикально новые алгоритмы, а грамотно комбинировали существующие подходы из разных областей.
3. Практичность победила академичность. Вопрос "а это будет работать вне лаборатории?" звучал на каждой сессии Q&A.
Что это значит для вас? Если вы разрабатываете ИИ-продукты, присмотритесь к нейросимвольным подходам - они перестали быть теоретическими. Если вы исследователь - не бойтесь критиковать мейнстрим. Если вы просто следите за областью - готовьтесь к тому, что следующие прорывы будут выглядеть менее эффектно, но работать более надежно.
И последнее: эксперимент с LLM-рецензентами, скорее всего, положит конец разговорам о полной автоматизации научной оценки. Что, честно говоря, немного утешает. Пока ИИ не может адекватно оценить другие ИИ, у нас еще есть работа.