Проблема, которая стоит миллионы. Буквально
Представьте сеть из 200 магазинов. В каждом - 15 тысяч SKU. По данным на 2026 год, средний показатель out-of-stock (товара нет на полке, хотя он есть на складе) колеблется от 5% до 12%. Это не просто цифры. Это 12% потерянных продаж. Мерчандайзеры физически не могут уследить за всем. Ночные проверки? Дорого. Человеческий фактор? Неизбежен.
Решение - камеры и нейросети. Звучит просто. На практике - ад из переменного освещения, перекрытых этикеток, одинаковых упаковок и вечно меняющегося ассортимента.
Главная ошибка стартапов в этой нише - попытка сделать универсальное решение "для всех товаров". Не работает. Алкоголь, бакалея, косметика, бытовая химия - у каждого сегмента свои особенности распознавания.
Архитектура, которая не сломается в пятницу вечером
Забудьте про монолитные модели. Современный стек на 2026 год выглядит так:
- Edge-устройства - камеры с Jetson Orin Nano или аналоги. Обработка на месте, только результаты летят в облако.
- Детекция полок - YOLOv10 или RT-DETR. Находим полки, игнорируем людей, тележки, потолок.
- Сегментация товаров - Segment Anything Model 2 (SAM 2) или FastSAM. Отделяем один товар от другого.
- Распознавание - вот здесь вариантов много. Об этом ниже.
- Post-processing - сопоставление с планограммой, проверка ценников, расчет заполненности.
1Сбор данных: где взять 100 тысяч изображений товаров
Первая мысль - скачать фото с сайта поставщика. Ошибка. Фото в каталоге и товар на полке под люминесцентными лампами - это две разные вселенные.
Правильный путь:
- Берете 20-30 реальных товаров (самые проблемные для распознавания).
- Снимаете их в условиях магазина: разный ракурс, разное освещение, частичное перекрытие.
- Используете аугментации: изменение яркости, контраста, добавление бликов, размытие (имитация движения).
- Для каждого товара - 100-150 вариантов. Это 3000 изображений для старта.
Нет доступа в магазин? Есть лайфхак. Снимайте товары дома, но имитируйте магазинную среду: холодный свет (6500K), вертикальные полки на фоне. Работает в 70% случаев.
Не экономьте на разметке. Плохо размеченный датасет - гарантия провала проекта. Используйте инструменты вроде CVAT или Roboflow с предразметкой через SAM 2. Подробнее о тонкостях в статье "Разметка данных: автоматизируй, экономь, избегай ошибок".
2Выбор модели: классификация vs детекция vs VLM
Здесь три лагеря, и каждый считает себя правым.
| Подход | Плюсы | Минусы | Когда использовать |
|---|---|---|---|
| Классификация (ResNet, EfficientNet) | Быстро, точно для известных товаров | Не видит новые товары, нужен кадринг | Стабильный ассортимент, до 1000 SKU |
| Детекция (YOLO, DETR) | Находит и распознает одновременно | Требует много данных для обучения | Динамичный ассортимент, много новинок |
| VLM (GPT-4V, Claude 3.5 Sonnet) | Работает "из коробки", читает текст | Дорого, медленно, проблемы с точностью | Пилотные проекты, proof of concept |
Мой выбор на 2026 год - гибрид. Детекция для нахождения товаров + классификация для точного определения. Почему? Потому что детектор можно дообучать на новых товарах без переобучения всей системы.
Про VLM отдельный разговор. В теории - идеально. Загрузил фото, модель сама все прочитала. На практике - VLM сломались на ваших сканах. Шрифты, блики, кривые этикетки - мультимодалки пока не справляются с ритейлом.
3Обучение: что важнее - точность или скорость?
Типичная ошибка - гнаться за 99% accuracy на валидации. В реальном магазине вы получите максимум 85-90%. И это нормально.
Метрики, которые действительно важны:
- Precision по классам - особенно для дорогих товаров (алкоголь, электроника). Ложное срабатывание здесь стоит денег.
- Recall на "нетоварах" - как часто модель принимает тень или отражение за товар.
- Время инференса - камера должна обрабатывать кадр за 200-300 мс. Иначе пропускает движение.
- Стабильность при разном освещении - утром, днем, вечером, при включенной рекламе.
Техники, которые работают в 2026:
# Пример аугментаций для ритейла
import albumentations as A
transform = A.Compose([
A.RandomBrightnessContrast(brightness_limit=0.3, contrast_limit=0.3, p=0.5),
A.HueSaturationValue(hue_shift_limit=20, sat_shift_limit=30, val_shift_limit=20, p=0.5),
A.MotionBlur(blur_limit=7, p=0.2), # Имитация движения камеры
A.GaussNoise(var_limit=(10.0, 50.0), p=0.3), # Шум матрицы
A.Perspective(scale=(0.05, 0.1), p=0.3), # Наклон камеры
A.CoarseDropout(max_holes=8, max_height=20, max_width=20, p=0.2), # Перекрытие
])4Деплой: от прототипа к 200 магазинам
Здесь ломаются 80% проектов. Лабораторная точность 95% превращается в 70% в первом же магазине.
Поэтапный rollout:
- 1 магазин, 1 полка - отлаживаете пайплайн, собираете реальные данные.
- 1 магазин, все полки категории - проверяете масштабирование.
- 3 магазина разного формата - гипермаркет, супермаркет, уценка.
- Полный rollout - только после фикса основных проблем.
Инфраструктура на 2026:
- Edge: NVIDIA Jetson Orin Nano 8GB (для 2-4 камер) или 16GB (для 6-8 камер).
- Облако: AWS SageMaker или GCP Vertex AI для дообучения.
- Мониторинг: Prometheus + Grafana для метрик, Weights & Biases для качества моделей.
- Data pipeline: Apache Kafka для потоковой обработки изображений.
Обязательно предусмотрите механизм обратной связи. Когда мерчандайзер видит ошибку (модель сказала "нет товара", а он есть), он должен иметь возможность это отметить. Эти данные идут в дообучение. Без этого система деградирует за 3-4 месяца.
Бизнес-метрики: что считать кроме accuracy
Техническая команда смотрит на mAP и F1-score. Бизнес - на другие цифры:
| Метрика | Формула | Целевое значение | Что значит |
|---|---|---|---|
| On-Shelf Availability (OSA) | Товары в наличии / Все товары по планограмме | > 95% | Доступность товаров для покупателя |
| Out-of-Stock время | Среднее время отсутствия товара | < 2 часа | Как быстро восполняются пробелы |
| Planogram compliance | Товары на своих местах / Все товары | > 90% | Соблюдение выкладки |
| ROI системы | (Прирост продаж - Затраты) / Затраты | > 1.5 за год | Окупаемость |
Реальный кейс: сеть магазинов внедрила систему в 50 точках. За 6 месяцев OSA выросла с 88% до 94%. Продажи категории "импульсные покупки" (жвачки, шоколадки у кассы) - +15%. Окупаемость - 11 месяцев.
Ошибки, которые совершают все. И вы тоже
После десятка внедрений вижу повторяющиеся паттерны:
- "А давайте распознаем по штрих-коду!" - Штрих-код не виден с расстояния 3 метров. Он на боковой стороне. Он перекрыт ценником. Забудьте.
- Игнорирование сезонности - Новогодние упаковки, праздничные стикеры, акционные ценники. Модель должна это учитывать.
- Одна модель для всех категорий - Бакалея (много текста) и овощи (никакого текста) требуют разных подходов.
- Нет A/B тестирования - Как сравнить старую и новую модель, если они работают на разных данных?
- "Настроим раз и навсегда" - Ассортимент меняется каждую неделю. Модель нужно дообучать постоянно.
Про падение моделей в production у нас есть отдельная большая статья: "Почему падают модели компьютерного зрения". Обязательно почитайте перед запуском.
Что будет дальше? Прогноз на 2027-2028
Тренды, которые уже видны:
- Multimodal для ритейла - не общие VLM, а специализированные модели, обученные именно на товарах. Первые ласточки - DeepEyesV2 и аналоги.
- Сенсорное слияние - камеры + датчики веса на полках. Если товар есть визуально, но вес не изменился - возможно, это пустая упаковка.
- Predictive replenishment - система не просто фиксирует отсутствие, а предсказывает, когда товар закончится, на основе истории продаж и текущего остатка.
- AR для мерчандайзеров - очки или планшет показывают, где какой товар должен стоять, выделяют ошибки в реальном времени.
Самое интересное - интеграция с системами поставщиков. Когда полка пустеет, заказ формируется автоматически, а поставщик видит это в своем кабинете. Это следующий уровень после Catalog AI от Amazon.
Главный урок всех внедрений: идеальной системы не существует. Будет 85% точности, будут ложные срабатывания, будут слепые зоны. Но даже 85% - это в 10 раз лучше, чем выборочные проверки людьми. И в 100 раз дешевле.
Начинайте с малого. Собирайте данные. Ошибайтесь быстро. И помните - каждая неудачная попытка приближает вас к системе, которая сэкономит сети миллионы. А вам - построит карьеру в самой горячей области CV 2026 года.