InfiniMind: как экс-Googlers анализируют темные видео-данные в 2026 | AiManual
AiManual Logo Ai / Manual.
09 Фев 2026 Новости

InfiniMind: бывшие инженеры Google вскрывают «темные» видеоархивы

Стартап бывших инженеров Google превращает терабайты неструктурированного видео в бизнес-аналитику с помощью мультимодального ИИ. Как это работает в 2026.

Вы знаете, что такое «темные данные»? Не в смысле даркнета. Это терабайты видеозаписей, которые пылятся на серверах ритейлеров, строительных компаний, больниц. Камеры работают 24/7, а смысл из этих записей никто не извлекает. Просто хранят - на всякий случай. Архив в 10 петабайт - и ни одной полезной инсайта.

InfiniMind, стартап трех бывших инженеров Google, эту проблему решает радикально. Не просто «распознает объекты». Они строят инфраструктуру, которая превращает видео в структурированные базы данных, с которыми можно работать как с таблицами в Excel. Только вместо цифр - динамика покупательского потока, аномалии на производственной линии, паттерны поведения пациентов.

Из Google - в «темные» архивы

Основатели - Аня Родригес, Марк Чен и Лео Вонг - ушли из Google в конце 2024-го. Не потому что плохо платили. Им надоело, что самые крутые мультимодальные модели вроде Gemini 2.0 Ultra или Claude 3.5 Sonnet работают только на красивых демках, а в реальных условиях спотыкаются о плохое освещение, ракурсы и шум.

Контекст: На февраль 2026 года лидером в мультимодальном анализе считается обновленный Gemini 2.5 Pro с расширенным контекстным окном, но даже он требует тонкой настройки для работы с длинными, «грязными» видео-потоками. InfiniMind строит свою инфраструктуру поверх таких моделей, но с критическим слоем пред- и постобработки.

«В Google мы делали технологии для идеального мира, - говорит Аня Родригес в интервью. - Чистые датасеты, студийное освещение. А потом я увидела архив строительной площадки - 5000 часов видео, где половина кадров размыта дождем, а на другой половине камера дрожит от ветра. И поняла: вот где реальная проблема».

Их первый пилот был как раз со строительной компанией. Аналогично тому, как TrueLook следил за касками, но масштабировали задачу. Не просто «есть каска/нет каски». Анализ всей логистики: сколько времени бригада тратит на доставку материалов, какие зоны простаивают, как движется техника.

Как это работает? Не как у всех

Большинство решений для анализа видео в 2026 году все еще используют подход «загрузи видео - получи отчет». InfiniMind поступает иначе. Они разбивают процесс на три этапа, и первый - самый неочевидный.

Этап 1: Видео как граф

Вместо того чтобы скармливать модели сырые кадры, их система сначала строит временной граф событий. Камера в магазине? Она не просто видит людей. Она фиксирует: «человек вошел в зону А в 14:05, взял продукт X с полки в 14:07, пошел к кассе в 14:12». Каждое событие - узел в графе со временем, координатами, уверенностью модели.

💡
Этот подход напоминает технологию, которую Google и DeepMind довели до ума для motion capture на смартфонах (подробнее здесь), но примененную к пассивному наблюдению, а не активному захвату движения.

Почему граф, а не просто временная метка? Потому что связи между событиями важнее самих событий. «Человек взял молоко» - это факт. «Человек взял молоко после того, как 30 секунд смотрел на йогурты, но не взял ни одного» - это инсайт для отдела закупок.

Этап 2: Мультимодальный, но специализированный

InfiniMind не использует одну огромную модель для всего. У них пайплайн из специализированных модулей, каждый обучен на конкретном типе «грязных» данных. Один модуль отлично работает с дрожащей камерой на складе. Другой - с инфракрасной съемкой в ночное время. Третий - с аудиодорожкой плохого качества (да, они анализируют и звук).

«Мы не верим в «универсального солдата», - говорит Марк Чен. - Gemini 2.5 - отличная модель, но для анализа медицинских видео с ЭКГ на фоне нужна совсем другая тонкая настройка, чем для розничной торговли. Мы создали 17 специализированных вариантов».

Важно: В отличие от более простых решений вроде Edit Mind, который работает локально, InfiniMind - облачная платформа, требующая серьезных вычислительных ресурсов. Зато и масштаб другой.

Этап 3: SQL для видео

Самое интересное - интерфейс. После обработки видео превращается в реляционную базу данных. Аналитик может писать SQL-запросы к видеоархиву. Серьезно.

Пример реального запроса от их клиента-ритейлера:

«SELECT время_дня, зона_магазина, COUNT(DISTINCT человек_id)
FROM видео_поток_2025_12
WHERE продукт_взят_с_полки = 'йогурт_премиум'
AND возрастная_группа = '25-35'
AND продукт_положен_в_корзину = FALSE
GROUP BY 1, 2»

Результат: выяснилось, что молодые люди часто берут премиальный йогурт, смотрят на цену и кладут обратно. В определенной зоне магазина. Проблема - не продукт, а расположение ценника. Такие инсайты раньше требовали недель ручного просмотра записей.

Кому это нужно? Всем, у кого есть камеры

Их клиентская база на февраль 2026 года - 47 компаний. От сетей фастфуда до производителей микрочипов. Общий объем обработанного видео - больше 8 эксабайт. (Да, это 8 миллионов терабайт).

Сектор Использование InfiniMind Экономический эффект (средний)
Розничная торговля Анализ покупательских путей, горячие/холодные зоны +11% к конверсии
Производство Контроль соблюдения ТБ, оптимизация логистики -17% к простоям
Здравоохранение Мониторинг пациентов, анализ взаимодействия персонала +23% эффективности медсестер

Самый неожиданный кейс - архивная киностудия. Они оцифровали 40 000 часов сырых материалов 80-х годов. InfiniMind не только каталогизировал кадры по сценам, но и нашел 17 часов ранее неизвестных дублей культовых сцен. Технология, похожая на ту, что Amazon Nova использует для геймдева, но для киноархивов.

Слоны в комнате: приватность и цена

Первое, что спрашивают: «Вы следите за людьми?» InfiniMind использует подход анонимизации в реальном времени. Лица и другие идентификаторы размываются до того, как данные попадают в граф. Система работает с абстрактными «агентами», а не с конкретными людьми.

«Мы продаем аналитику поведения, а не слежку, - подчеркивает Лео Вонг. - Наш главный конкурент - не системы видеонаблюдения, а Google Analytics. Только для физического мира».

Цена? Дорого. Обработка одного часа видео стоит от $50 до $200 в зависимости от сложности. Но учитывая, что типичный клиент имеет 10 000 часов архивного видео, который никогда не смотрел, ROI появляется быстро. Обнаружение одной узкой точки на производстве окупает годовой контракт.

💡
Тренд на извлечение смысла из «темных данных» - часть более общего сдвига, который мы обсуждали в материале «От инструмента к утилите». ИИ перестает быть просто инструментом и становится инфраструктурным слоем.

Что дальше? Видео как операционная система

Планы InfiniMind на 2026-2027 амбициозны. Они работают над тем, чтобы их платформа могла не только анализировать, но и прогнозировать. Не «что было», а «что будет».

«Представьте, что система видит: в магазине начинает скапливаться очередь у определенной кассы, - говорит Аня Родригес. - Она не просто фиксирует факт. Она анализирует причины (новый кассир, проблемы с терминалом) и отправляет алерт менеджеру за 2 минуты до того, как очередь станет критической. А через год - будет предсказывать такие ситуации за час».

Еще одно направление - интеграция с другими источниками данных. Видеопоток + данные с датчиков IoT + транзакционная база. Полная картина в реальном времени.

Параллельно они решают проблему, которая мучает всех: как отличить реальное видео от AI-генерации? Их модуль детекции DeepFake, обученный на последних образцах Midjourney 6 и Sora 2, показывает точность 98.7%. Технология, родственная той, что появилась в Gemini, но заточенная под коммерческое использование.

Будет ли Google их покупать? Вопрос интересный. У Google есть свои наработки в мультимодальном анализе, и недавние инвестиции вроде программы с Sundance показывают интерес к креативным индустриям. Но InfiniMind ушел дальше в нишевой enterprise-сегмент, где Google традиционно слаб.

Мой прогноз? К концу 2026 года InfiniMind или купят за сумму с девятью нулями, или они станут публичными. Потому что проблема «темных видео-данных» - не нишевая. Она везде, где есть камеры. А камеры сейчас везде.

Совет тем, у кого есть видеоархивы: начните с малого. Возьмите 100 часов самого ценного видео (например, записи с периода пиковых продаж) и попробуйте их проанализировать. Не ради «внедрения ИИ». Ради ответа на один конкретный бизнес-вопрос. Вы удивитесь, что скрывается в этих «темных данных». Возможно, ваш следующий миллион долларов.