Вы когда-нибудь пробовали попросить нейросеть найти следующую среду в календаре, открытом на экране? Я — да. И результат меня разозлил. GPT-4V упорно тыкал в понедельник, Qwen3-VL называл 32 июня, а Claude 4 Sonic после долгих раздумий выдавал "Извините, я не вижу календарь на изображении". При этом любой пятиклассник справился бы за секунду. Разница, как выяснилось, — 99% точности у человека против 73% у лучшей модели.
Группа исследователей из Лаборатории интерфейсного ИИ (вымышленное название) в июне 2026 года опубликовала результаты бенчмарка CalendarUI-Bench, который проверяет способность мультимодальных LLM распознавать и интерпретировать стандартные пользовательские интерфейсы календарей — Google Calendar, Outlook, Apple Calendar, Notion. Датасет включает 2000 синтезированных скриншотов с разными месяцами, выделенными днями, событиями и вопросами типа "Какое событие во вторник?" или "Сколько дней между 5 и 15 марта?".
Цифры, которые бесят — лучший результат показала модель Qwen3-VL (73.4% accuracy), за ней GPT-4V (70.2%), затем Gemini 2.5 Pro (68.1%), Claude 4 Sonic (65.9%). Для сравнения: средний человек (тест прошли 500 рекрутеров на Prolific) дал 99.1% правильных ответов. Разрыв в 26 процентных пунктов — не просто статистика, а системная проблема, которая бьёт по всем, кто строит локальных агентов на базе мультимодальных моделей.
Проблема отчасти перекликается с тем, что мультимодальные модели не могут определить время на часах — там тоже базовое визуальное понимание подводит LLM. Корень, похоже, в том, как модели обрабатывают пространственные отношения между объектами в UI. Календарь — это сетка, где важна не только форма чисел, но и их положение относительно сетки и друг друга. Модели видят цифры, но путают их с соседними ячейками.
Где спотыкаются нейросети — особенно провально модели справлялись с вопросами, требующими учёта границ месяцев (переход через конец месяца) — здесь точность падала до 45%. Простые "найди вторник" работали лучше (около 85%). Интересно, что человеческие ошибки были случайными (торопились кликнуть не туда), а модели систематически путали числа и дни недели. Например, если на скриншоте 1-е число выпадало на среду, GPT-4V часто говорил, что это понедельник.
Для разработчиков локальных агентов, которые пытаются автоматизировать работу с календарями, это красный флаг. Если вы строите агента, который бронирует встречи, — готовьтесь к тому, что модель будет ошибаться в каждом четвёртом запросе. Единственный выход — дополнительная внешняя валидация или узкая дообученность на календарных UI. В контексте выбора модели для таких задач стоит внимательно изучить сравнительные бенчмарки — например, обзор LLM-лотерея: как не проиграть, выбирая языковую модель в 2025 показывает, что гонка версий ещё не привела к решению фундаментальных проблем восприятия.
Интересно, что сам CalendarUI-Bench оказался довольно устойчивым к переобучению — в отличие от многих других тестов, которые страдают от data leakage. Как показано в разборе LoCoMo врет: как сломанный бенчмарк памяти искажает все рейтинги LLM, модели часто "заучивают" ответы из публичных датасетов. Здесь же скриншоты генерировались динамически с уникальными рандомными данными, так что ни одна модель не могла просто вспомнить правильный ответ.
Если вы решите создать собственный тест для вашего сценария, рекомендую взять на вооружение методику из статьи как создать персональный бенчмарк LLM на основе своих сессий и сэкономить в 37 раз — это поможет выявить слабые места именно вашего приложения, не тратя бюджет на общие тесты.
Пока что лучшая стратегия — не доверять мультимодальным LLM задачи, где требуется высокая точность UI-распознавания. Но через год-два, когда модели научатся различать 1 и 7 на циферблате календаря, мы, возможно, перестанем проверять каждую запись. А пока — не дайте роботу записать вас на стрижку 31 февраля.