Проблема, которая стоит миллионы. Буквально

Представьте сеть из 200 магазинов. В каждом - 15 тысяч SKU. По данным на 2026 год, средний показатель out-of-stock (товара нет на полке, хотя он есть на складе) колеблется от 5% до 12%. Это не просто цифры. Это 12% потерянных продаж. Мерчандайзеры физически не могут уследить за всем. Ночные проверки? Дорого. Человеческий фактор? Неизбежен.

Решение - камеры и нейросети. Звучит просто. На практике - ад из переменного освещения, перекрытых этикеток, одинаковых упаковок и вечно меняющегося ассортимента.

Главная ошибка стартапов в этой нише - попытка сделать универсальное решение "для всех товаров". Не работает. Алкоголь, бакалея, косметика, бытовая химия - у каждого сегмента свои особенности распознавания.

Архитектура, которая не сломается в пятницу вечером

Забудьте про монолитные модели. Современный стек на 2026 год выглядит так:

Edge-устройства - камеры с Jetson Orin Nano или аналоги. Обработка на месте, только результаты летят в облако.
Детекция полок - YOLOv10 или RT-DETR. Находим полки, игнорируем людей, тележки, потолок.
Сегментация товаров - Segment Anything Model 2 (SAM 2) или FastSAM. Отделяем один товар от другого.
Распознавание - вот здесь вариантов много. Об этом ниже.
Post-processing - сопоставление с планограммой, проверка ценников, расчет заполненности.

💡

Не пытайтесь распознавать товары "в лоб" со всей полки. Сначала найдите полку (это проще), затем кадрируйте ее, затем работайте с товарами. Каскадный подход снижает нагрузку на модель в 3-5 раз.

1Сбор данных: где взять 100 тысяч изображений товаров

Первая мысль - скачать фото с сайта поставщика. Ошибка. Фото в каталоге и товар на полке под люминесцентными лампами - это две разные вселенные.

Правильный путь:

Берете 20-30 реальных товаров (самые проблемные для распознавания).
Снимаете их в условиях магазина: разный ракурс, разное освещение, частичное перекрытие.
Используете аугментации: изменение яркости, контраста, добавление бликов, размытие (имитация движения).
Для каждого товара - 100-150 вариантов. Это 3000 изображений для старта.

Нет доступа в магазин? Есть лайфхак. Снимайте товары дома, но имитируйте магазинную среду: холодный свет (6500K), вертикальные полки на фоне. Работает в 70% случаев.

Не экономьте на разметке. Плохо размеченный датасет - гарантия провала проекта. Используйте инструменты вроде CVAT или Roboflow с предразметкой через SAM 2. Подробнее о тонкостях в статье "Разметка данных: автоматизируй, экономь, избегай ошибок".

2Выбор модели: классификация vs детекция vs VLM

Здесь три лагеря, и каждый считает себя правым.

Подход	Плюсы	Минусы	Когда использовать
Классификация (ResNet, EfficientNet)	Быстро, точно для известных товаров	Не видит новые товары, нужен кадринг	Стабильный ассортимент, до 1000 SKU
Детекция (YOLO, DETR)	Находит и распознает одновременно	Требует много данных для обучения	Динамичный ассортимент, много новинок
VLM (GPT-4V, Claude 3.5 Sonnet)	Работает "из коробки", читает текст	Дорого, медленно, проблемы с точностью	Пилотные проекты, proof of concept

Мой выбор на 2026 год - гибрид. Детекция для нахождения товаров + классификация для точного определения. Почему? Потому что детектор можно дообучать на новых товарах без переобучения всей системы.

Про VLM отдельный разговор. В теории - идеально. Загрузил фото, модель сама все прочитала. На практике - VLM сломались на ваших сканах. Шрифты, блики, кривые этикетки - мультимодалки пока не справляются с ритейлом.

3Обучение: что важнее - точность или скорость?

Типичная ошибка - гнаться за 99% accuracy на валидации. В реальном магазине вы получите максимум 85-90%. И это нормально.

Метрики, которые действительно важны:

Precision по классам - особенно для дорогих товаров (алкоголь, электроника). Ложное срабатывание здесь стоит денег.
Recall на "нетоварах" - как часто модель принимает тень или отражение за товар.
Время инференса - камера должна обрабатывать кадр за 200-300 мс. Иначе пропускает движение.
Стабильность при разном освещении - утром, днем, вечером, при включенной рекламе.

Техники, которые работают в 2026:

# Пример аугментаций для ритейла
import albumentations as A

transform = A.Compose([
    A.RandomBrightnessContrast(brightness_limit=0.3, contrast_limit=0.3, p=0.5),
    A.HueSaturationValue(hue_shift_limit=20, sat_shift_limit=30, val_shift_limit=20, p=0.5),
    A.MotionBlur(blur_limit=7, p=0.2),  # Имитация движения камеры
    A.GaussNoise(var_limit=(10.0, 50.0), p=0.3),  # Шум матрицы
    A.Perspective(scale=(0.05, 0.1), p=0.3),  # Наклон камеры
    A.CoarseDropout(max_holes=8, max_height=20, max_width=20, p=0.2),  # Перекрытие
])

💡

Не тренируйте модель на "чистых" данных. Добавляйте 20-30% "мусорных" кадров: пустые полки, руки мерчандайзеров, тележки. Модель должна научиться их игнорировать, а не пытаться классифицировать.

4Деплой: от прототипа к 200 магазинам

Здесь ломаются 80% проектов. Лабораторная точность 95% превращается в 70% в первом же магазине.

Поэтапный rollout:

1 магазин, 1 полка - отлаживаете пайплайн, собираете реальные данные.
1 магазин, все полки категории - проверяете масштабирование.
3 магазина разного формата - гипермаркет, супермаркет, уценка.
Полный rollout - только после фикса основных проблем.

Инфраструктура на 2026:

Edge: NVIDIA Jetson Orin Nano 8GB (для 2-4 камер) или 16GB (для 6-8 камер).
Облако: AWS SageMaker или GCP Vertex AI для дообучения.
Мониторинг: Prometheus + Grafana для метрик, Weights & Biases для качества моделей.
Data pipeline: Apache Kafka для потоковой обработки изображений.

Обязательно предусмотрите механизм обратной связи. Когда мерчандайзер видит ошибку (модель сказала "нет товара", а он есть), он должен иметь возможность это отметить. Эти данные идут в дообучение. Без этого система деградирует за 3-4 месяца.

Бизнес-метрики: что считать кроме accuracy

Техническая команда смотрит на mAP и F1-score. Бизнес - на другие цифры:

Метрика	Формула	Целевое значение	Что значит
On-Shelf Availability (OSA)	Товары в наличии / Все товары по планограмме	> 95%	Доступность товаров для покупателя
Out-of-Stock время	Среднее время отсутствия товара	< 2 часа	Как быстро восполняются пробелы
Planogram compliance	Товары на своих местах / Все товары	> 90%	Соблюдение выкладки
ROI системы	(Прирост продаж - Затраты) / Затраты	> 1.5 за год	Окупаемость

Реальный кейс: сеть магазинов внедрила систему в 50 точках. За 6 месяцев OSA выросла с 88% до 94%. Продажи категории "импульсные покупки" (жвачки, шоколадки у кассы) - +15%. Окупаемость - 11 месяцев.

Ошибки, которые совершают все. И вы тоже

После десятка внедрений вижу повторяющиеся паттерны:

"А давайте распознаем по штрих-коду!" - Штрих-код не виден с расстояния 3 метров. Он на боковой стороне. Он перекрыт ценником. Забудьте.
Игнорирование сезонности - Новогодние упаковки, праздничные стикеры, акционные ценники. Модель должна это учитывать.
Одна модель для всех категорий - Бакалея (много текста) и овощи (никакого текста) требуют разных подходов.
Нет A/B тестирования - Как сравнить старую и новую модель, если они работают на разных данных?
"Настроим раз и навсегда" - Ассортимент меняется каждую неделю. Модель нужно дообучать постоянно.

Про падение моделей в production у нас есть отдельная большая статья: "Почему падают модели компьютерного зрения". Обязательно почитайте перед запуском.

Что будет дальше? Прогноз на 2027-2028

Тренды, которые уже видны:

Multimodal для ритейла - не общие VLM, а специализированные модели, обученные именно на товарах. Первые ласточки - DeepEyesV2 и аналоги.
Сенсорное слияние - камеры + датчики веса на полках. Если товар есть визуально, но вес не изменился - возможно, это пустая упаковка.
Predictive replenishment - система не просто фиксирует отсутствие, а предсказывает, когда товар закончится, на основе истории продаж и текущего остатка.
AR для мерчандайзеров - очки или планшет показывают, где какой товар должен стоять, выделяют ошибки в реальном времени.

Самое интересное - интеграция с системами поставщиков. Когда полка пустеет, заказ формируется автоматически, а поставщик видит это в своем кабинете. Это следующий уровень после Catalog AI от Amazon.

💡

Самый неочевидный совет: начните не с высокотехнологичного решения, а с простого детектора "пусто/не пусто" на полке. Это дает 70% пользы при 20% сложности. Бизнес увидит ценность, даст бюджет на развитие. А вы получите реальные данные для тренировки сложных моделей.

Главный урок всех внедрений: идеальной системы не существует. Будет 85% точности, будут ложные срабатывания, будут слепые зоны. Но даже 85% - это в 10 раз лучше, чем выборочные проверки людьми. И в 100 раз дешевле.

Начинайте с малого. Собирайте данные. Ошибайтесь быстро. И помните - каждая неудачная попытка приближает вас к системе, которая сэкономит сети миллионы. А вам - построит карьеру в самой горячей области CV 2026 года.

Computer Vision в ритейле: пошаговый разбор проекта по распознаванию товаров на полках