$1 миллиард за то, чтобы ИИ перестал имитировать текст
В апреле 2026 года, когда мы уже привыкли, что любая нейросеть может написать поэму или сгенерировать кота в космосе, Ян Лекун пошёл ва-банк. Он собрал команду, бросил Meta (а вместе с ней — миллиардные ресурсы) и основал AMI Labs. Почему? Потому что текстовые модели, по его убеждению, — это калькуляторы в мире сложных явлений. Им не хватает «нулевого этажа»: понимания того, что шар после броска летит по параболе, а чашка, упавшая со стола, разбивается. И пока все гоняются за токенами, ЛеКун строит модели мира.
Термин VLA (Vision-Language-Action) — это не просто очередной акроним. Это попытка скрестить зрение, язык и действие в единую систему, которая не просто описывает мир, а предсказывает его изменения. Именно на это и нацелена вся архитектура AMI Labs.
Спойлер: если LLM — это энциклопедист, который никогда не выходил из библиотеки, то VLA — это механик, который видит мотор, читает инструкцию и тут же закручивает гайку. И да, он не просто повторяет заученные фразы — он понимает, что если пережать болт, резьба сорвётся. Именно эту «физическую интуицию» ЛеКун хочет вшить в ИИ.
Почему видео-языковые модели провалили экзамен
В конце 2025 года вышел бенчмарк SPLICE, который методично разнёс все современные VLM (Vision-Language Models). Оказалось, что они отлично справляются с вопросами вроде «Что на картинке?», но проваливаются на вопросах «Что произойдёт через секунду?». Логика? Отсутствует. Причина? У них нет модели мира. Они видят пиксели, но не видят физику.
AMI Labs с самого начала закладывает архитектуру, которая учится на сенсорных данных — видео, глубине, тактильных ощущениях. Вместо того чтобы переводить картинку в текст, VLA-модель строит скрытые представления пространства, времени и причинно-следственных связей. Это не просто «увидел — назвал». Это «увидел — предсказал последствия — действовал».
VLA: как объединить слова, картинки и мускулы
Архитектура VLA в AMI Labs строится вокруг трёх модальностей. Первая — визуальный энкодер, который превращает видеопоток в компактные векторы. Вторая — языковой декодер, который формулирует цели и инструкции. Третья — моторный (action) выход, который выдаёт управляющие команды для робота. Всё это объединено общей обучающей задачей: минимизировать ошибку предсказания следующего физического состояния. Звучит сложно, но на практике это означает, что робот учится так же, как ребёнок: случайно опрокинул стакан — запомнил, что после взмаха рукой следует мокрый пол.
«LLM — это библиотека, а VLA — это лаборатория. Мы не хотим, чтобы ИИ цитировал Ньютона — мы хотим, чтобы он сам вывел закон сохранения импульса из наблюдений», — говорил ЛеКун на закрытой презентации AMI Labs в марте 2026.
Не обошлось без скепсиса. Конкуренты (например, OpenAI с их новым проектом PhysicalGPT) утверждают, что достаточно дообучить языковую модель на физических текстах, и она «поймёт» физику. AMI Labs ставит иначе: нужно забыть про текстовую предобученность как таковую. Их последняя модель AMI-World-1.0 вообще не тренировалась на книгах — только на видеозаписях механики, движений и взаимодействий предметов. И вот тут начинается магия.
Как скрытые представления становятся «геометрией физики»
В статье про геометрию знаний мы уже разбирали, что внутри LLM можно найти векторы, кодирующие абстрактные идеи. Но AMI Labs пошли дальше: их скрытые представления напрямую отражают пространственные координаты, скорости, упругость и другие физические параметры. Они не интерпретируют мир через язык — они строят его карту в многомерном пространстве, где каждое направление соответствует реальной степени свободы в физическом мире.
| Свойство | LLM | VLA + World Model |
|---|---|---|
| Источник знаний | Текст | Сенсорные данные (видео, тактильные) |
| Понимание причинности | Статистическое (корреляция слов) | Физическое (динамика объектов) |
| Выход | Токены (слова) | Действия, предсказания состояний |
| Провал на SPLICE | Да (не отличает начало от конца) | Нет (предсказывает смену кадров) |
Именно поэтому бенчмарк WorldVQA, появившийся в конце 2025 года, стал камертоном для новой эры. Вопросы там построены так, что без модели мира ответить невозможно. «Если я переложу книгу с левой полки на правую, насколько изменится центр тяжести?» — языковая модель начнёт рассуждать про равенство моментов, но не сможет дать точный численный ответ. AMI-World-1.0, не обученная ни на одном учебнике физики, отвечает с погрешностью менее 5%. Потому что видела тысячи экспериментов.
Где деньги, ЛеКун? Почему инвесторы поверили в физический ИИ
В конце 2025 года AMI Labs привлекла $1 млрд от консорциума инвесторов (среди которых фонды, десятилетиями финансировавшие робототехнику). ЛеКун тогда сказал: «Рынок LLW (Large Language World) — это тупик. Рынок мировых моделей — $10 трлн, потому что они управляют реальными производствами». И это не пустые слова. Уже сейчас AMI Labs заключила контракты с двумя крупными автопроизводителями: их VLA-системы используются для контроля сборочных линий. Робот не просто распознаёт брак — он предсказывает, через сколько циклов деталь выйдет из строя, потому что «знает» механику напряжений.
В контексте ухода из Meta это выглядит не как бунт, а как холодный расчёт. Meta фокусировалась на цифровых аватарах и рекламе — там модель мира не нужна. А вот автопром, логистика, строительство — это сектора, где физика убивает или спасает бюджеты. И AMI Labs хочет стать операционной системой для «физического интернета».
Скептики указывают на огромные вычислительные затраты: эмуляция физики в реальном времени требует на порядки больше ресурсов, чем генерация текста. Но AMI Labs уже разработала специализированный чип — AMI-Core, который ускоряет forward pass для VLA в 10 раз по сравнению с обычными GPU.
Мирные модели против LLM: чем это закончится?
Летом 2026 года ожидается выход открытой версии AMI-World-Open. ЛеКун сделал ставку на открытость — чтобы привлечь академическое сообщество и нарастить датасеты. И это, возможно, переломный момент: модели мира начнут конкурировать с LLM не в тексте, а в реальных задачах.
Но есть нюанс. Модели мира, как и люди, могут ошибаться в сложных мультимодальных сценариях. Например, они отлично понимают твёрдые тела, но с жидкостями и сыпучими материалами пока справляются хуже. AMI Labs уже интегрировала в свой пайплайн методы обучения на видеоданных, которые позволяют моделировать деформации. Это вопрос времени.
И ещё один вызов — непохожесть на человеческое мышление. VLA-модели не рассуждают, как мы. Они не думают словами — они вычисляют траектории. Это может породить проблемы с объяснением решений. Но, как говорил ЛеКун на вопрос о «чёрном ящике»: «Когда вы берёте стакан, вы не объясняете себе каждое движение мышц. Вы просто делаете. Мы хотим того же от ИИ. А объяснения пусть пишут LLM».
Лично я (как автор) вижу в этом подходе нечто пугающее и одновременно прекрасное. Мы отходим от нарратива «ИИ — это болтливая энциклопедия» и возвращаемся к идее «ИИ — это инструмент, который может починить кран, приготовить ужин и не уронить тарелку». Если AMI Labs преуспеет, через пять лет под словом «искусственный интеллект» мы будем подразумевать не чат-бота, а то, что двигает руку робота. И это — правильная эволюция.