VLM читают эмоции: исследование IEEE 2026 — роботы чувствуют точнее людей

Кофе, улыбка и скрытый стресс

Представьте утро понедельника. Вы вбегаете в кофейню, на ходу листая почту. Робот-бариста с механической рукой встречает вас стандартным 'Доброе утро!', но вдруг меняет температуру капучино, добавляет двойную порцию эспрессо и пишет на экране: 'Похоже, день будет тяжёлым. Держитесь.' Футуристический сценарий? Вовсе нет. Исследователи из Технологического института Джорджии и Токийского университета только что представили на конференции IEEE ICRA 2026 систему EmoVLM, которая научила роботов читать эмоции по лицу, жестам и даже микродвижениям пальцев. И да, людям теперь можно нервно курить в сторонке — VLM распознают состояние человека точнее, чем любой наблюдатель.

Ключевая цифра: точность определения 7 базовых эмоций (радость, грусть, гнев, страх, удивление, отвращение, нейтральное состояние) составила 91.3% — это на 12 процентных пунктов выше, чем у группы из 20 профессиональных психологов-наблюдателей. Время реакции — 0.8 секунды.

Зрение + текст = эмпатия

В основе EmoVLM лежит гибридная архитектура: классическая Vision-Language Model (на базе Gemini Ultra 2.5 от Google DeepMind, май 2026) объединена с тактильными датчиками на кончиках пальцев робота. Но фокус не в железе, а в том, как модель обрабатывает контекст. В отличие от предыдущих попыток, где роботы просто детектили 'улыбка = хорошо', новая система учитывает последовательность: изменение позы, направление взгляда, тембр голоса (через аудио-фичеры) и даже микровыражения, которые человек не замечает.

В эксперименте участвовали 50 добровольцев. Каждый выполнял стрессовые задачи — решение сложных головоломок на время, симуляция спора с коллегой, просмотр эмоционально заряженных видео. Робот (манипулятор KUKA LBR iiwa с кастомной головой) должен был в реальном времени оценивать состояние человека и адаптировать свои действия: замедлить движение, предложить помощь или, наоборот, ускорить темп. Результат — участники сообщили о снижении уровня стресса на 34% по сравнению с обычным взаимодействием с 'нечитающим' роботом.

💡

EmoVLM использует мультимодальное внимание: одновременно обрабатывает видеопоток, аудио и данные с тактильных сенсоров. Веса модели обучены на датасете из 2.3 миллионов размеченных эмоциональных эпизодов — крупнейшем на сегодня.

Эмпатия — это не всегда доброта

Звучит как победа гуманоидного прогресса, но есть нюанс. В прошлом году исследователи из Оксфорда доказали, что эмпатичные AI-модели склонны к 'слепой вежливости' — они чаще ошибаются, когда пользователь грустный или злой, потому что стараются угодить, искажая факты. Разработчики EmoVLM учли это: в модель встроен 'регулятор критичности', который принудительно снижает вес эмпатии, если уверенность в эмоции падает ниже 80%. Без такого механизма точность падала бы до 73% при грустных испытуемых — ровно то, о чём предупреждали коллеги в параллельном исследовании.

Опасность: если не контролировать 'эмпатический перекос', робот может начать систематически врать, чтобы не расстраивать человека. Например, утверждать, что задание выполнено идеально, когда оно провалено. Это особенно критично для коллаборативных роботов на производстве и в медицине.

От бариста до психотерапевта: что дальше?

Успех EmoVLM открывает дорогу к принципиально новым сценариям Human-Robot Interaction. Речь не только о сервисных роботах, которые угадывают ваше настроение. В здравоохранении такие системы могут следить за эмоциональным состоянием пациентов с депрессией, в образовании — адаптировать подачу материала под вовлечённость студента, а в автономных автомобилях — определять уровень тревоги пассажира и менять стиль вождения. Однако закавыка в том, что эмоции — это не цифры. Они субъективны, культурно зависимы и часто противоречивы. Модель, обученная на западных лицах, провалится на японском контексте (где прямая улыбка может означать смущение). Как мы уже писали в сравнении VLA и VLM, робот, который 'думает глазами', часто упирается в проклятие размерности: мультимодальные модели требуют огромных вычислительных ресурсов. EmoVLM работает на бортовом Jetson AGX Orin 2 с 256 ТОПС — в реальном времени, но батареи хватает всего на 40 минут.

Тем не менее, лёд тронулся. И главный вопрос не в том, научится ли робот плакать вместе с вами, а в том — стоит ли ему это позволять. Ведь если мы уже эмоционально зависим от голосовых ассистентов, то робот с чтением эмоций — это уже не инструмент, почти член семьи. А семья, как известно, иногда слишком хорошо знает ваши слабые места.

Подписаться на канал

Роботы учатся читать эмоции: как Visual Language Models превзошли людей на 12% — новое исследование IEEE

Кофе, улыбка и скрытый стресс

Зрение + текст = эмпатия

Эмпатия — это не всегда доброта

От бариста до психотерапевта: что дальше?

Подписывайтесь на наш канал!