Роботы долго были слепыми и глухими к прикосновениям. Камеры давали картинку, микрофоны — звук. Но ощущение трения, текстуры, давления — это висело в воздухе. Пока DAIMON Robotics не выкатила датасет, от которого у любого инженера-робототехника зачешутся руки.
30 апреля 2026 года компания объявила о релизе Daimon-Infinity — крупнейшего на сегодня набора мультимодальных данных с акцентом на тактильную обратную связь. В датасет вошли записи с более чем 10 000 взаимодействий манипуляторов с объектами разной жёсткости, шероховатости и формы. Каждый файл содержит синхронизированные потоки видео высокого разрешения, аудио контакта, шестиосевые измерения сил/моментов и — главное — плотные карты давления с нового тактильного сенсора D-Tact V3.
Зачем это нужно? Вспомните, как вы берёте чашку: пальцы подстраивают усилие, чтобы не раздавить хрупкий фарфор, но и не выронить. Традиционные роботы с жёсткими захватами либо сжимают всё с одинаковой силой, либо полагаются на дорогую силомоментную сенсорику в запястье. А вот локальное тактильное восприятие — то, чего катастрофически не хватало индустрии. Именно об этом мы писали в проблемах баланса и сенсоров — без тактильной обратной связи роботы так и останутся неуклюжими подростками на льду.
Цифры датасета Daimon-Infinity: 10 000+ эпизодов, 2 ТБ сырых данных, 120 часов интеракций, 32 типа поверхностей (стекло, пластик, ткань, дерево, резина, металл). Каждый эпизод размечен по классу деятельности: захват, скольжение, поворот, нажатие, сжатие.
Сенсор, который видит кожей
D-Tact V3 — не просто тензодатчик. Это гибкая полимерная матрица 32×32 точек с частотой опроса 2 кГц и чувствительностью от 0,1 до 100 Н. Каждая точка регистрирует не только силу, но и микровибрации, что позволяет распознавать скольжение ещё до того, как предмет выпадет из захвата. В датасете эти данные сохранены в формате HDF5 вместе с временными метками и синхронизацией с видео (60 fps).
Разработчики утверждают: такой сенсор обходится в десять раз дешевле коммерческих силомоментных датчиков. Значит, тактильное восприятие может стать массовым — не только для заводских манипуляторов, но и для сервисных роботов, коллаборативных рук и даже протезов. Кстати, о датасетах для роботов: мы уже разбирали, как собрать датасет для сегментации на CPU — там другие масштабы, но подход к организации данных похож.
VTLA: архитектура, которая учит физтела
Одновременно с датасетом DAIMON Robotics выложила в открытый доступ фреймворк VTLA (Vision-Tactile-Language-Action). Это end-to-end архитектура, которая объединяет в себе визуальные, тактильные и текстовые данные, генерируя на выходе команды для робота. По сути, это модель, которая смотрит на объект, щупает его (через сенсор D-Tact), читает инструкцию типа «возьми аккуратно, чтобы не повредить» и дёргает сервоприводами.
VTLA использует трансформерную основу с кросс-модальным вниманием — картинка, карта давления и текст «сливаются» в общий латентный вектор. Это не новость (что-то подобное мы видели в визуальной памяти для ИИ), но здесь впервые тактильные данные подаются на уровне плотной карты, а не скудных средних значений. Результаты на тестовых сценариях — точность захвата хрупких объектов (яйца, стаканы) выросла с 45% до 91%.
Почему это переворот (и почему не совсем)
Скептик скажет: «Ещё один датасет, ещё одна нейросетка. Покажи мне робота, который действительно ходит и собирает рассыпанные скрепки». И будет прав — до серийного продукта с тактильным интеллектом далеко. Но Daimon-Infinity решает фундаментальную проблему: в робототехнике до сих пор не было стандартизированного эталонного набора тактильных данных. Каждая лаборатория писала свои скрипты, свои форматы, свои сенсоры. Результаты было невозможно воспроизвести или сравнить. Теперь появляется бенчмарк.
Этот датасет — такой же прорыв, как когда-то ImageNet для компьютерного зрения. Только для физического ИИ. И если вспомнить CES 2026, где ИИ спустился с облаков в реальный мир, то становится очевидно: тактильная модальность — последний недостающий кирпич. Интересно, что DAIMON пока не показывает готового робота, подобного Atlas + Gemini от Boston Dynamics. Возможно, они делают ставку на экосистему: пусть другие инженеры на своих платформах тренируются на их данных и заодно дорабатывают сенсоры.
Что дальше: от данных к действию
Уже анонсирована вторая фаза проекта — Daimon-Infinity 2.0, где добавят динамические сценарии (падение, качение, перекат) и данные с многопальцевых рук (Shadow Hand, Robonaut). В планах — выпуск эталонного хардверного комплекта для сбора тактильных данных, чтобы любой университет мог пополнить базу. И это, пожалуй, самый умный ход: датасет тем ценнее, чем он больше и разнообразнее.
Параллельно стоит обратить внимание на смежные направления: например, Google и DeepMind превратили смартфон в motion capture-студию — тоже сбор данных, но для движений человека. Если скрестить тактильные данные с человеческим захватом, можно научить роботов брать предметы так же ловко, как мы. DAIMON, похоже, это понимают — их датасет включает метки о типе хвата (пинцетный, силовой, ладонный).
Единственное, что пока не ясно — как VTLA поведёт себя на ограниченном железе. В отличие от Tiiny AI Pocket Lab, где LLM работают на крошечных устройствах, тактильная нейросеть требует GPU для инференса в реальном времени. Но DAIMON обещают оптимизацию под Jetson и Raspberry Pi 5 к концу 2026 года.
Пока конкуренты клепают датасеты для зрения и текста, DAIMON Robotics заняла нишу, которая пахнет — буквально — потом и пластиком. Если физический ИИ когда-нибудь сможет работать в доме, собирать грибы или помогать в реабилитации, это будет во многом благодаря Daimon-Infinity. Или, наоборот, выяснится, что тактильные данные — пустышка. Но это мы узнаем только после того, как сотни лабораторий запустят обучение на новом датасете. Хорошая новость: данные теперь есть.