Проблема: почему в Индии нельзя просто посчитать пассажиров?
Представьте стандартный индийский автобус. 120 человек в салоне на 40 мест. Люди висят на поручнях, сидят на ступеньках, стоят в проходах в три слоя. Кондуктор? Его давно не видели. Билеты? Чаще всего наличные без фиксации. Транспортные компании теряют до 30% выручки из-за "серых" пассажиров. Классические датчики на дверях? Сломаются через неделю в этой давке.
Вот где компьютерное зрение должно было стать спасением. Но готовые решения из США или Европы давали погрешность в 40-50%. Причина? Их обучали на аккуратных датасетах с американскими школьными автобусами или немецкими междугородками. Индийский хаос - это другой уровень сложности.
Потеря 30% выручки - это не абстракция. Для транспортной компании с парком в 500 автобусов это 2-3 миллиона долларов в год. Именно поэтому пилотный проект запустили не "для галочки", а с реальным экономическим расчетом.
Решение: датасет, который не сломает вам психику
Первая ошибка, которую совершают 90% команд - пытаются дообучить готовую модель на паре сотен своих фото. Не работает. Нужен специализированный датасет. IndiaBus собрали за 4 месяца в 12 городах:
- 450 часов видео с камер внутри салонов
- 87,000 размеченных кадров с bounding boxes для голов и торсов (да, разметка вручную - это ад)
- Разные условия: ночь без освещения, муссонные дожди, пыльные бури
- Этническое разнообразие - от светлокожих жителей северных штатов до темнокожих южан
Ключевой инсайт: размечали не только людей, но и частичные occlusion. Человек, наполовину скрытый за другим - это отдельный класс. Иначе модель видит две головы и один торс, считает за одного.
Архитектура: от дешёвой камеры до облачного дашборда
Система построена на трёхуровневой архитектуре. Никаких "тяжёлых" моделей в реальном времени - только оптимизированные инференс-пайплайны.
1 Edge-устройство в автобусе
NVIDIA Jetson Orin Nano (на 2026 год это стандарт для edge-CV). Камера - обычная FullHD IP-камера за $150. Не нужно 4K, потому что скорость важнее разрешения. Модель - кастомная версия YOLO-NAS 2.0 (выпущена в конце 2025), дообученная на IndiaBus.
Почему YOLO-NAS, а не стандартный YOLOv8? На 2026 год NAS показывает на 15% лучше accuracy при той же скорости на edge-устройствах. И главное - лучше справляется с мелкими объектами (головами в толпе).
# Конфигурация инференса на Jetson
model_config = {
"model_path": "yolo_nas_v2_india_bus.onnx",
"conf_threshold": 0.65, # Выше, чем обычно - меньше false positives
"iou_threshold": 0.45,
"input_size": (640, 640), # Не 1280! Скорость важнее
"use_cuda": True
}
2 Локальная агрегация данных
Jetson считает пассажиров каждые 5 секунд, но отправляет в облако только агрегированные данные раз в минуту: количество на входе/выходе, текущее заполнение, аномалии (например, резкий скачок). Почему не потоковое видео? Потому что мобильный интернет в Индии - это лотерея. Пакетная отправка переживает обрывы связи.
3 Облачная платформа аналитики
Здесь строится полная картина: загрузка маршрутов в реальном времени, прогнозирование пиковых часов, оптимизация интервалов. На основе этих данных диспетчеры перебрасывают автобусы с пустых маршрутов на перегруженные. Как в системе City Detect для мусоровозов, только для пассажиров.
Обучение модели: три фикса, которые работают в хаосе
Стандартный пайплайн обучения давал accuracy 78% - неприемлемо. Пришлось добавлять специфичные для Индии техники:
- Augmentation для скученности: искусственно "сжимали" изображения, создавая эффект ещё большей толпы. Без этого модель теряла людей при реальной нагрузке.
- Контекстные правила: если в кадре видна открытая дверь и движение к ней, это вероятный выход. Простая эвристика, но снижает ошибки на 12%.
- Температурная калибровка: модель переобучали отдельно для жарких дней (когда люди больше двигаются) и прохладных.
| Метрика | Без дообучения | С IndiaBus |
|---|---|---|
| Accuracy (точность) | 47% | 94% |
| False positive (ложные срабатывания) | 35 на 100 кадров | 4 на 100 кадров |
| Скорость инференса (FPS) | 8 | 22 |
Пилот: цифры, которые заставят вас поверить в ИИ
На 50 автобусах в Дели запустили 3-месячный пилот. Результаты удивили даже скептиков:
- Выявление "призрачных" пассажиров (когда кондуктор списывал билеты на несуществующих людей) - экономия $18,000 в месяц. Похожая схема описана в статье про мошенников на 650 млн рублей.
- Оптимизация маршрутов сократила холостой пробег на 23%
- Точность подсчета в час пик - 92%, в обычное время - 96%
- Окупаемость оборудования: 4.5 месяца
Но были и проблемы. Например, в первый месяц система принимала за человека большую корзину на голове у женщины. Пришлось дообучать на дополнительных примерах.
Ошибки, которые съедят ваш бюджет (если повторите)
Ошибка #1: Ставить несколько камер для стереозрения. В индийском автобусе их либо украдут, либо заляпают грязью. Одна камера у водителя под защитным стеклом - максимум.
Ошибка #2: Полагаться на облачный инференс. Задержки в 3-5 секунд делают подсчет входа/выхода бессмысленным. Edge-устройство обязательно, как в Reka Edge 7B для мультимодальных задач.
Ошибка #3: Экономить на разметке датасета. Автоматическая разметка предобученной моделью даёт 60% качества. Нужна ручная проверка каждого десятого кадра минимум.
Что дальше: куда движется edge-аналитика в транспорте
Подсчёт пассажиров - только первый шаг. На той же аппаратуре уже тестируют:
- Детекцию драк или медицинских происшествий (по падению человека)
- Анализ заполнения багажных полок
- Интеграцию с системами бесконтактной оплаты
Через 2-3 года такая же система появится в российских маршрутках. Потому что проблема "левых" пассажиров универсальна. Разница лишь в том, что вместо корзин на головах придётся дообучать на пуховики и шапки-ушанки.
Главный урок? Нельзя брать готовое CV-решение и ждать, что оно заработает в другой культурной среде. Нужен свой датасет, свои эвристики и готовность потратить месяцы на дообучение. Зато результат - не абстрактный "AI pilot", а конкретные проценты в финансовом отчёте.
И да, следующий вызов - подсчёт пассажиров в индийских поездах. Там людей ещё больше, а освещения ещё меньше. Но это уже другая история.