LingBot-Depth: обзор модели для завершения глубины в робототехнике | 2026 | AiManual
AiManual Logo Ai / Manual.
27 Янв 2026 Инструмент

LingBot-Depth: модель, которая заставляет роботов видеть стекло и зеркала

Как LingBot-Depth решает проблему прозрачных объектов для роботов. Архитектура ViT-Large, датасет 3M изображений, рост успешности захвата на 40%.

Роботы слепы к стеклу. Звучит как начало плохого анекдота, но это самая раздражающая проблема в современной робототехнике. Представьте манипулятор, который пять раз подряд пытается схватить стакан воды и промахивается, потому что датчик глубины видит только отражение от стола. Смешно? Только до тех пор, пока этот робот не разобьёт вашу любимую вазу.

LingBot-Depth — это модель, которая наконец-то решает эту проблему. Выпущенная в конце 2025 года и активно развивающаяся к 2026-му, она учит роботов "достраивать" глубину там, где сенсоры врут. Особенно когда перед ними стекло, зеркало или любой другой проклятый прозрачный или отражающий объект.

Как она видит невидимое

Под капотом у LingBot-Depth — модернизированный ViT-Large (Vision Transformer). Не та старая версия, а последняя итерация, оптимизированная именно для задач depth completion. Модель жрёт на вход RGB-изображение и сырые, зашумленные данные с датчика глубины (типа Kinect или Intel RealSense). А на выходе — чистая, достроенная карта глубины, где стакан имеет объём, а не является дыркой в пространстве.

💡
Ключевая фишка — самообучение с масками. Модель сама учится выделять области, где данные о глубине ненадёжны (те самые стекла и зеркала), и заполнять их, опираясь на контекст RGB-изображения. Никакой ручной разметки тысяч прозрачных стаканов.

Обучали эту штуку на кластере из 128 GPU. Датасет — 3 миллиона пар RGB-D изображений, собранных в реальных условиях с разным освещением, углами и, что важно, с разным уровнем сенсорного шума. Это не стерильные лабораторные данные, а настоящий ад, с которым сталкиваются инженеры.

Цифры, которые заставляют поверить

Метрики — вещь скучная, но здесь они кричат. На тестовом наборе с прозрачными объектами LingBot-Depth снижает ошибку (RMSE) на 43% по сравнению с предыдущим state-of-the-art. Абсолютная ошибка в миллиметрах падает в среднем с 25 до 14. Это разница между "почти взял" и "уверенно схватил".

МодельRMSE (прозрачные объекты)Успешность захвата
Базовый сенсор (Kinect v2)~28 мм22%
PenetNet (2023)~19 мм51%
LingBot-Depth (2025/2026)~14 мм78%

С чем её едят, а вернее — с чем сравнивают

До LingBot-Depth были попытки. PenetNet, TransCG — все они пытались решить проблему прозрачности, но часто спотыкались о реалистичный шум или требовали тонны размеченных данных. Главное отличие новой модели — её устойчивость к дерьмовым данным с реальных сенсоров и способность обобщаться на новые, невиданные объекты (например, хрустальную вазу, которой не было в датасете).

Ещё один конкурент — подходы на основе больших языково-визуальных моделей (VLA), как в PhysicalAgent. Но они часто перегружены и медленны для реального управления. LingBot-Depth — специализированный инструмент, быстрый и точный.

Робот берёт стакан. Наконец-то

Самое интересное — применение. Исследователи протестировали модель на манипуляторе UR5e. Задача: взять стеклянный стакан со стола. Без LingBot-Depth успешность была около 20-30%. С моделью — подскочила до 75-80%. Робот перестал тыкаться в пустоту и начал уверенно подводить захват к реальным границам объекта.

Это меняет правила игры не только в лабораториях, но и в логистике (упаковка хрупких товаров), сервисной робототехнике (подача напитков) и даже в хирургии (работа с прозрачными инструментами). Если вы как раз собираете своего робота, такая модель может спасти вас от часов отладки из-за глюков датчика.

Важный нюанс: модель не идеальна. При очень сложных отражениях (например, кривое зеркало) или в полной темноте она может ошибаться. Это всё ещё ИИ, а не волшебство. Но даже с этими оговорками она на голову выше всего, что было раньше.

Кому срочно нужен LingBot-Depth

  • Инженерам-робототехникам, которые устали объяснять, почему их манипулятор не может поднять пластиковую бутылку.
  • Исследователям в компьютерном зрении, особенно тем, кто работает с датасетами вроде LeRobot и хочет улучшить восприятие окружения.
  • Разработчикам автономных систем, где робот движется в среде с окнами, витринами или стеклянными перегородками.
  • Всем, кто верит, что ИИ должен понимать физику мира, а не просто генерировать текст. (Это, кстати, тренд, о котором мы писали в статье "Мирные модели против LLM").

Что дальше? Роботы перестанут бить посуду

LingBot-Depth — не конечная точка. Это сигнал: эра, когда роботы игнорировали целый класс объектов, заканчивается. Следующий шаг — интеграция таких моделей в стандартные стеки, например, в ROS2, чтобы любой разработчик мог подключить её как плагин к своему пайплайну восприятия.

Мой прогноз? К 2027 году модели завершения глубины, учитывающие прозрачность, станут таким же стандартом для манипуляторов, как SLAM для мобильных роботов. А пока совет простой: если ваш робот работает в помещении со стеклом, не надейтесь только на железо. Добавьте софт, который видит то, что не видит сенсор.

И да, может быть, тогда мы наконец получим робота-бармена, который не разольёт дорогой виски.