Вы знаете, что такое «темные данные»? Не в смысле даркнета. Это терабайты видеозаписей, которые пылятся на серверах ритейлеров, строительных компаний, больниц. Камеры работают 24/7, а смысл из этих записей никто не извлекает. Просто хранят - на всякий случай. Архив в 10 петабайт - и ни одной полезной инсайта.
InfiniMind, стартап трех бывших инженеров Google, эту проблему решает радикально. Не просто «распознает объекты». Они строят инфраструктуру, которая превращает видео в структурированные базы данных, с которыми можно работать как с таблицами в Excel. Только вместо цифр - динамика покупательского потока, аномалии на производственной линии, паттерны поведения пациентов.
Из Google - в «темные» архивы
Основатели - Аня Родригес, Марк Чен и Лео Вонг - ушли из Google в конце 2024-го. Не потому что плохо платили. Им надоело, что самые крутые мультимодальные модели вроде Gemini 2.0 Ultra или Claude 3.5 Sonnet работают только на красивых демках, а в реальных условиях спотыкаются о плохое освещение, ракурсы и шум.
Контекст: На февраль 2026 года лидером в мультимодальном анализе считается обновленный Gemini 2.5 Pro с расширенным контекстным окном, но даже он требует тонкой настройки для работы с длинными, «грязными» видео-потоками. InfiniMind строит свою инфраструктуру поверх таких моделей, но с критическим слоем пред- и постобработки.
«В Google мы делали технологии для идеального мира, - говорит Аня Родригес в интервью. - Чистые датасеты, студийное освещение. А потом я увидела архив строительной площадки - 5000 часов видео, где половина кадров размыта дождем, а на другой половине камера дрожит от ветра. И поняла: вот где реальная проблема».
Их первый пилот был как раз со строительной компанией. Аналогично тому, как TrueLook следил за касками, но масштабировали задачу. Не просто «есть каска/нет каски». Анализ всей логистики: сколько времени бригада тратит на доставку материалов, какие зоны простаивают, как движется техника.
Как это работает? Не как у всех
Большинство решений для анализа видео в 2026 году все еще используют подход «загрузи видео - получи отчет». InfiniMind поступает иначе. Они разбивают процесс на три этапа, и первый - самый неочевидный.
Этап 1: Видео как граф
Вместо того чтобы скармливать модели сырые кадры, их система сначала строит временной граф событий. Камера в магазине? Она не просто видит людей. Она фиксирует: «человек вошел в зону А в 14:05, взял продукт X с полки в 14:07, пошел к кассе в 14:12». Каждое событие - узел в графе со временем, координатами, уверенностью модели.
Почему граф, а не просто временная метка? Потому что связи между событиями важнее самих событий. «Человек взял молоко» - это факт. «Человек взял молоко после того, как 30 секунд смотрел на йогурты, но не взял ни одного» - это инсайт для отдела закупок.
Этап 2: Мультимодальный, но специализированный
InfiniMind не использует одну огромную модель для всего. У них пайплайн из специализированных модулей, каждый обучен на конкретном типе «грязных» данных. Один модуль отлично работает с дрожащей камерой на складе. Другой - с инфракрасной съемкой в ночное время. Третий - с аудиодорожкой плохого качества (да, они анализируют и звук).
«Мы не верим в «универсального солдата», - говорит Марк Чен. - Gemini 2.5 - отличная модель, но для анализа медицинских видео с ЭКГ на фоне нужна совсем другая тонкая настройка, чем для розничной торговли. Мы создали 17 специализированных вариантов».
Важно: В отличие от более простых решений вроде Edit Mind, который работает локально, InfiniMind - облачная платформа, требующая серьезных вычислительных ресурсов. Зато и масштаб другой.
Этап 3: SQL для видео
Самое интересное - интерфейс. После обработки видео превращается в реляционную базу данных. Аналитик может писать SQL-запросы к видеоархиву. Серьезно.
Пример реального запроса от их клиента-ритейлера:
«SELECT время_дня, зона_магазина, COUNT(DISTINCT человек_id)
FROM видео_поток_2025_12
WHERE продукт_взят_с_полки = 'йогурт_премиум'
AND возрастная_группа = '25-35'
AND продукт_положен_в_корзину = FALSE
GROUP BY 1, 2»
Результат: выяснилось, что молодые люди часто берут премиальный йогурт, смотрят на цену и кладут обратно. В определенной зоне магазина. Проблема - не продукт, а расположение ценника. Такие инсайты раньше требовали недель ручного просмотра записей.
Кому это нужно? Всем, у кого есть камеры
Их клиентская база на февраль 2026 года - 47 компаний. От сетей фастфуда до производителей микрочипов. Общий объем обработанного видео - больше 8 эксабайт. (Да, это 8 миллионов терабайт).
| Сектор | Использование InfiniMind | Экономический эффект (средний) |
|---|---|---|
| Розничная торговля | Анализ покупательских путей, горячие/холодные зоны | +11% к конверсии |
| Производство | Контроль соблюдения ТБ, оптимизация логистики | -17% к простоям |
| Здравоохранение | Мониторинг пациентов, анализ взаимодействия персонала | +23% эффективности медсестер |
Самый неожиданный кейс - архивная киностудия. Они оцифровали 40 000 часов сырых материалов 80-х годов. InfiniMind не только каталогизировал кадры по сценам, но и нашел 17 часов ранее неизвестных дублей культовых сцен. Технология, похожая на ту, что Amazon Nova использует для геймдева, но для киноархивов.
Слоны в комнате: приватность и цена
Первое, что спрашивают: «Вы следите за людьми?» InfiniMind использует подход анонимизации в реальном времени. Лица и другие идентификаторы размываются до того, как данные попадают в граф. Система работает с абстрактными «агентами», а не с конкретными людьми.
«Мы продаем аналитику поведения, а не слежку, - подчеркивает Лео Вонг. - Наш главный конкурент - не системы видеонаблюдения, а Google Analytics. Только для физического мира».
Цена? Дорого. Обработка одного часа видео стоит от $50 до $200 в зависимости от сложности. Но учитывая, что типичный клиент имеет 10 000 часов архивного видео, который никогда не смотрел, ROI появляется быстро. Обнаружение одной узкой точки на производстве окупает годовой контракт.
Что дальше? Видео как операционная система
Планы InfiniMind на 2026-2027 амбициозны. Они работают над тем, чтобы их платформа могла не только анализировать, но и прогнозировать. Не «что было», а «что будет».
«Представьте, что система видит: в магазине начинает скапливаться очередь у определенной кассы, - говорит Аня Родригес. - Она не просто фиксирует факт. Она анализирует причины (новый кассир, проблемы с терминалом) и отправляет алерт менеджеру за 2 минуты до того, как очередь станет критической. А через год - будет предсказывать такие ситуации за час».
Еще одно направление - интеграция с другими источниками данных. Видеопоток + данные с датчиков IoT + транзакционная база. Полная картина в реальном времени.
Параллельно они решают проблему, которая мучает всех: как отличить реальное видео от AI-генерации? Их модуль детекции DeepFake, обученный на последних образцах Midjourney 6 и Sora 2, показывает точность 98.7%. Технология, родственная той, что появилась в Gemini, но заточенная под коммерческое использование.
Будет ли Google их покупать? Вопрос интересный. У Google есть свои наработки в мультимодальном анализе, и недавние инвестиции вроде программы с Sundance показывают интерес к креативным индустриям. Но InfiniMind ушел дальше в нишевой enterprise-сегмент, где Google традиционно слаб.
Мой прогноз? К концу 2026 года InfiniMind или купят за сумму с девятью нулями, или они станут публичными. Потому что проблема «темных видео-данных» - не нишевая. Она везде, где есть камеры. А камеры сейчас везде.
Совет тем, у кого есть видеоархивы: начните с малого. Возьмите 100 часов самого ценного видео (например, записи с периода пиковых продаж) и попробуйте их проанализировать. Не ради «внедрения ИИ». Ради ответа на один конкретный бизнес-вопрос. Вы удивитесь, что скрывается в этих «темных данных». Возможно, ваш следующий миллион долларов.