AMI Labs Лекуна: VLA и модели мира для физического ИИ

$1 миллиард за то, чтобы ИИ перестал имитировать текст

В апреле 2026 года, когда мы уже привыкли, что любая нейросеть может написать поэму или сгенерировать кота в космосе, Ян Лекун пошёл ва-банк. Он собрал команду, бросил Meta (а вместе с ней — миллиардные ресурсы) и основал AMI Labs. Почему? Потому что текстовые модели, по его убеждению, — это калькуляторы в мире сложных явлений. Им не хватает «нулевого этажа»: понимания того, что шар после броска летит по параболе, а чашка, упавшая со стола, разбивается. И пока все гоняются за токенами, ЛеКун строит модели мира.

Термин VLA (Vision-Language-Action) — это не просто очередной акроним. Это попытка скрестить зрение, язык и действие в единую систему, которая не просто описывает мир, а предсказывает его изменения. Именно на это и нацелена вся архитектура AMI Labs.

Спойлер: если LLM — это энциклопедист, который никогда не выходил из библиотеки, то VLA — это механик, который видит мотор, читает инструкцию и тут же закручивает гайку. И да, он не просто повторяет заученные фразы — он понимает, что если пережать болт, резьба сорвётся. Именно эту «физическую интуицию» ЛеКун хочет вшить в ИИ.

Почему видео-языковые модели провалили экзамен

В конце 2025 года вышел бенчмарк SPLICE, который методично разнёс все современные VLM (Vision-Language Models). Оказалось, что они отлично справляются с вопросами вроде «Что на картинке?», но проваливаются на вопросах «Что произойдёт через секунду?». Логика? Отсутствует. Причина? У них нет модели мира. Они видят пиксели, но не видят физику.

AMI Labs с самого начала закладывает архитектуру, которая учится на сенсорных данных — видео, глубине, тактильных ощущениях. Вместо того чтобы переводить картинку в текст, VLA-модель строит скрытые представления пространства, времени и причинно-следственных связей. Это не просто «увидел — назвал». Это «увидел — предсказал последствия — действовал».

💡

Ключевая идея: модель мира — это не база данных с фактами, а имитатор физической реальности. Как только ИИ может предсказать следующее состояние среды (положение предметов, динамику), он перестаёт быть болванкой, повторяющей статистические паттерны.

VLA: как объединить слова, картинки и мускулы

Архитектура VLA в AMI Labs строится вокруг трёх модальностей. Первая — визуальный энкодер, который превращает видеопоток в компактные векторы. Вторая — языковой декодер, который формулирует цели и инструкции. Третья — моторный (action) выход, который выдаёт управляющие команды для робота. Всё это объединено общей обучающей задачей: минимизировать ошибку предсказания следующего физического состояния. Звучит сложно, но на практике это означает, что робот учится так же, как ребёнок: случайно опрокинул стакан — запомнил, что после взмаха рукой следует мокрый пол.

«LLM — это библиотека, а VLA — это лаборатория. Мы не хотим, чтобы ИИ цитировал Ньютона — мы хотим, чтобы он сам вывел закон сохранения импульса из наблюдений», — говорил ЛеКун на закрытой презентации AMI Labs в марте 2026.

Не обошлось без скепсиса. Конкуренты (например, OpenAI с их новым проектом PhysicalGPT) утверждают, что достаточно дообучить языковую модель на физических текстах, и она «поймёт» физику. AMI Labs ставит иначе: нужно забыть про текстовую предобученность как таковую. Их последняя модель AMI-World-1.0 вообще не тренировалась на книгах — только на видеозаписях механики, движений и взаимодействий предметов. И вот тут начинается магия.

Как скрытые представления становятся «геометрией физики»

В статье про геометрию знаний мы уже разбирали, что внутри LLM можно найти векторы, кодирующие абстрактные идеи. Но AMI Labs пошли дальше: их скрытые представления напрямую отражают пространственные координаты, скорости, упругость и другие физические параметры. Они не интерпретируют мир через язык — они строят его карту в многомерном пространстве, где каждое направление соответствует реальной степени свободы в физическом мире.

Свойство	LLM	VLA + World Model
Источник знаний	Текст	Сенсорные данные (видео, тактильные)
Понимание причинности	Статистическое (корреляция слов)	Физическое (динамика объектов)
Выход	Токены (слова)	Действия, предсказания состояний
Провал на SPLICE	Да (не отличает начало от конца)	Нет (предсказывает смену кадров)

Именно поэтому бенчмарк WorldVQA, появившийся в конце 2025 года, стал камертоном для новой эры. Вопросы там построены так, что без модели мира ответить невозможно. «Если я переложу книгу с левой полки на правую, насколько изменится центр тяжести?» — языковая модель начнёт рассуждать про равенство моментов, но не сможет дать точный численный ответ. AMI-World-1.0, не обученная ни на одном учебнике физики, отвечает с погрешностью менее 5%. Потому что видела тысячи экспериментов.

Где деньги, ЛеКун? Почему инвесторы поверили в физический ИИ

В конце 2025 года AMI Labs привлекла $1 млрд от консорциума инвесторов (среди которых фонды, десятилетиями финансировавшие робототехнику). ЛеКун тогда сказал: «Рынок LLW (Large Language World) — это тупик. Рынок мировых моделей — $10 трлн, потому что они управляют реальными производствами». И это не пустые слова. Уже сейчас AMI Labs заключила контракты с двумя крупными автопроизводителями: их VLA-системы используются для контроля сборочных линий. Робот не просто распознаёт брак — он предсказывает, через сколько циклов деталь выйдет из строя, потому что «знает» механику напряжений.

В контексте ухода из Meta это выглядит не как бунт, а как холодный расчёт. Meta фокусировалась на цифровых аватарах и рекламе — там модель мира не нужна. А вот автопром, логистика, строительство — это сектора, где физика убивает или спасает бюджеты. И AMI Labs хочет стать операционной системой для «физического интернета».

Скептики указывают на огромные вычислительные затраты: эмуляция физики в реальном времени требует на порядки больше ресурсов, чем генерация текста. Но AMI Labs уже разработала специализированный чип — AMI-Core, который ускоряет forward pass для VLA в 10 раз по сравнению с обычными GPU.

Мирные модели против LLM: чем это закончится?

Летом 2026 года ожидается выход открытой версии AMI-World-Open. ЛеКун сделал ставку на открытость — чтобы привлечь академическое сообщество и нарастить датасеты. И это, возможно, переломный момент: модели мира начнут конкурировать с LLM не в тексте, а в реальных задачах.

Но есть нюанс. Модели мира, как и люди, могут ошибаться в сложных мультимодальных сценариях. Например, они отлично понимают твёрдые тела, но с жидкостями и сыпучими материалами пока справляются хуже. AMI Labs уже интегрировала в свой пайплайн методы обучения на видеоданных, которые позволяют моделировать деформации. Это вопрос времени.

И ещё один вызов — непохожесть на человеческое мышление. VLA-модели не рассуждают, как мы. Они не думают словами — они вычисляют траектории. Это может породить проблемы с объяснением решений. Но, как говорил ЛеКун на вопрос о «чёрном ящике»: «Когда вы берёте стакан, вы не объясняете себе каждое движение мышц. Вы просто делаете. Мы хотим того же от ИИ. А объяснения пусть пишут LLM».

Лично я (как автор) вижу в этом подходе нечто пугающее и одновременно прекрасное. Мы отходим от нарратива «ИИ — это болтливая энциклопедия» и возвращаемся к идее «ИИ — это инструмент, который может починить кран, приготовить ужин и не уронить тарелку». Если AMI Labs преуспеет, через пять лет под словом «искусственный интеллект» мы будем подразумевать не чат-бота, а то, что двигает руку робота. И это — правильная эволюция.

Подписаться на канал

Взломать физику: зачем ЛеКун построил AMI Labs и почему VLA — это следующий этап ИИ