Цифра, от которой у инженеров дрожат колени
99%. Не 95, не 97, а 99% успеха в реальных производственных задачах. Не в симуляции, не в тепличных условиях лаборатории, а на конвейере, где пыль, вибрация, перепады освещения и вечно опаздывающие детали. Звучит как фантастика? Команда из GEN-0 Robotics (стартап, выросший из Сколтеха и MTS AI) только что опубликовала результаты промышленных испытаний своей VLA-системы. И да, это не очередной пресс-релиз — у них есть открытые логи и видео.
За две недели непрерывной работы на заводе по сборке электроники робот с VLA-моделью совершил всего 3 ошибки из 347 операций. Три! Причем две из них — из-за того, что оператор неправильно закрепил заготовку. Система сама обнаружила несоответствие и остановилась. Это уже не просто умный манипулятор — это агент, который понимает контекст.
Но как они это сделали? И почему все предыдущие попытки (помните PhysicalAgent с его модульной архитектурой?) упирались в потолок около 85-90%? Ответ — в гибридном подходе, который скрестил лучшее из VLA и традиционной промышленной логики.
Почему 99% — это не просто цифра, а смена парадигмы
Промышленная робототехника десятилетиями жила по заветам: жесткое программирование, четкие траектории, никакой самодеятельности. Любое отклонение — стоп, вызов инженера. VLA-модели, которые мы обсуждали в сравнении VLA vs VLM, умели адаптироваться, но их точность в реальных задачах редко превышала 85%. Причина банальна: нейросеть учится по картинкам и тексту, но не знает физики конвейера.
Новая система от GEN-0 использует VLA-модель как «мозг», но дополняет её легковесным модулем физического моделирования, работающим в реальном времени. Этот модуль — не нейросеть, а классический симулятор с урезанной физикой, который за 5 миллисекунд проверяет: «А не треснет ли деталь, если схватить вот так?», «А не соскользнет ли?». VLA предлагает действие, физика его верифицирует. Тандем, который дал те самые 99%.
💡 Ключевое отличие от подхода NVIDIA GR00T N1.7 (см. наш обзор) — здесь нет дорогой System 2. Вместо большой языковой модели для планирования используется сверхлегкий предиктор (всего 50 Мб), обученный на симуляционных данных. Система работает с задержкой менее 30 мс — критично для конвейера.
Как устроен этот «робот-чемпион»
Архитектура — тройка компонентов, которые общаются через общую память состояний:
- VLA-ядро — на базе доработанной версии LingBot-VA (помните нашу статью о том, как 5.3B-модель обошла гиганта?). Оно обрабатывает видео с четырех камер, распознает объекты, читает QR-коды и понимает голосовые команды оператора.
- Физический предиктор — симулятор на базе MuJoCo, сжатый до 20 мегабайт. Предсказывает устойчивость захвата, трение, инерцию. Работает на отдельном ядре embedded-платформы NXP, о чем мы писали в гайде по асинхронному инференсу.
- Контроллер низкого уровня — классический ПИД-регулятор с обратной связью по моментам. Он не дает нейросети «психовать» и дергаться, если предсказание расходится с реальностью на полмиллиметра.
Все три живут на одной плате — обычном Nvidia Jetson Orin (не самом дорогом). Никаких облачных вычислений, задержка от события до действия — 28 мс. Заводские инженеры, привыкшие к релейной логике, сначала не верили, что это вообще возможно.
99% — это предел? Нет, это только начало
Самое интересное — как они обучали модель. В отличие от π0.7 от Physical Intelligence, где упор на композиционную генерализацию, здесь применили распределённое обучение с подкреплением. Да, то самое, про которое мы писали в статье про RL от Dota 2 до роботов. Только теперь уже не ад, а работающая система: 100 параллельных симуляций на кластере из 50 видеокарт за неделю дали 3 года опыта. Результат — политика, устойчивая к 95% типовых отклонений.
Но 99% — это не потолок. В планах у команды — добавить модуль предсказания износа инструмента. Чтобы робот не только выполнял операцию, но и говорил: «Смените захват через 200 циклов, иначе точность упадет ниже 98%». И вот тогда промышленность действительно изменится.
Что это значит для рынка
Пока KUKA и Fanuc продают роботов с гарантированной точностью 99.9% только для одной операции (варить шов, красить, брать деталь с одного и того же места), новый подход позволяет одному роботу делать 20 разных задач с той же точностью. Это убивает бизнес-модель «железо + дорогой интегратор». Generalist-роботы, о которых мечтали десятилетиями, перестают быть фантастикой.
Не обошлось и без скепсиса. Некоторые инженеры ворчат: «Мы и сами могли бы, но нам не нужна такая сложность». Это тот самый синдром Not Invented Here, который тормозит внедрение. Но цифры говорят сами за себя. Когда робот с 99% точностью сам исправляет перекос детали, а старый — останавливает линию, выбор очевиден.
Кстати, о старых роботах. Как показано в анализе Atlas + Gemini с CES, будущее за когнитивными системами. Но Atlas стоит как самолёт, а GEN-0 обещает цену дополнения к существующему роботу — около $5000 за апгрейд. Рынок, готовься.
⚠️ Важная оговорка: 99% достигнуто в тестовой эксплуатации под контролем разработчиков. Массовое внедрение потребует адаптации под каждое предприятие. Но сам факт — уже переворот.
Что дальше: носимые датчики и человеческий опыт
Следующий шаг — интеграция с носимыми датчиками оператора. Представьте: инженер надевает браслет, робот видит его жесты и повторяет их с поправкой на усилие. Прототипы уже тестируют. Если это взлетит, обучение робота сведется к тому, что человек показывает движение 2-3 раза. Без программирования, без симуляций. Как учится ребенок. Вот это будет настоящий прорыв.
А пока — следите за Hugging Face: GEN-0 обещает выложить часть датасетов и веса предиктора. Возможно, к лету 2026 любой стартап сможет поднять такого робота в своем гараже. И тогда 99% станут нормой, а не сенсацией.