Фундаментальная модель, которая ест детекторы на завтрак
Декабрь 2025 года. Meta выпускает Segment Anything Model 3 - очередную итерацию своей фундаментальной модели для сегментации. 840 миллионов параметров. Поддержка масок, bounding boxes, текстовых промптов. Красивые демо на сайте.
А дальше начинается реальность. Инженер в продуктовой команде смотрит на SAM 3 и думает: "Ну вот, опять. Еще одна огромная модель, которая в демо работает идеально, а в продакшене будет тормозить как старая телега". Он открывает свой ноутбук, где лежит YOLOv11, обученный на 5000 кастомных изображений. 45 миллионов параметров. Работает за 20ms на CPU. "Зачем мне этот монстр?" - спрашивает он себя.
Я провел эксперимент, который должен был доказать его правоту. Но получилось ровно наоборот.
Важный контекст: если вы выбираете языковую модель, посмотрите LLM-лотерею: как не проиграть, выбирая языковую модель в 2025. Там та же логика - бенчмарки врут, реальность жестока.
Эксперимент: три сценария, которые ломают интуицию
Я взял три набора данных:
- Стандартный COCO - 80 классов, обычные объекты
- Кастомный датасет дефектов на производстве - 500 изображений, 3 класса дефектов
- Медицинские снимки кожи - 200 изображений, 5 классов поражений
Против SAM 3 поставил:
- YOLOv11-nano (3.2M параметров) - обученный с нуля на каждом датасете
- YOLOv11-large (52M параметров) - fine-tuned на каждом датасете
- EfficientDet-d3 (15M параметров) - тоже fine-tuned
Оборудование: сервер с NVIDIA P100 16GB. Да, старый добрый Pascal. Потому что в реальном продакшене 80% команд все еще сидят на таких картах или хуже.
1 Подготовка: где спрятаны настоящие затраты
Первое открытие: подготовка данных для обучения кастомной модели съела 40 часов инженерного времени. Разметка, аугментация, балансировка классов, борьба с переобучением.
SAM 3 потребовал ноль минут подготовки. Ноль. Ты берешь изображение, пишешь промпт "сегментируй все кошки на картинке" или рисуешь bounding box. Все.
2 Инференс: цифры, которые не врут
Вот что получилось на тестовой выборке из 100 изображений каждого типа:
| Модель | Время (P100) | mAP@0.5 | Память VRAM |
|---|---|---|---|
| SAM 3 (ViT-H) | 1100 ms | 0.78 | 14.2 GB |
| YOLOv11-nano | 18 ms | 0.65 | 0.8 GB |
| YOLOv11-large | 45 ms | 0.72 | 2.1 GB |
| EfficientDet-d3 | 62 ms | 0.70 | 1.8 GB |
1100 миллисекунд против 18. Кажется, выбор очевиден? Не торопитесь.
Контекст - это все. Абсолютно все
Когда я показывал эти цифры коллегам, реакция была предсказуемой: "Ну вот, SAM 3 в 60 раз медленнее! Зачем он нужен?"
Но потом я задал один вопрос: "А сколько раз в день ваша модель делает инференс?"
Ответы:
- Система контроля качества на производстве: 1000 изображений в день
- Медицинский скрининг: 200 изображений в день
- Робот-уборщик с камерой: 50 изображений в день
Давайте посчитаем. 1000 изображений * 1100ms = 1100 секунд = 18 минут. 1000 изображений * 18ms = 18 секунд.
Разница 17 минут 42 секунды. В день.
А теперь добавьте сюда:
- 40 часов подготовки данных (это 5 рабочих дней)
- 8 часов тренировки модели
- 4 часа валидации и тестирования
- Неизвестное количество часов на дообучение, когда появятся новые классы объектов
SAM 3 требует: 0 часов подготовки, 0 часов тренировки, 0 часов дообучения. Вы просто меняете промпт.
Тут работает та же логика, что и в бенчмарках LLM. Считают не только точность, но и общую стоимость владения.
Три сценария, где специализированная модель все еще побеждает
Не все так однозначно. SAM 3 - не серебряная пуля. Вот где маленькие модели бьют его в хвост и в гриву:
1. Edge-устройства и реальное время
NVIDIA Jetson Orin Nano. Raspberry Pi 5 с Coral TPU. iPhone с Neural Engine. На этих платформах SAM 3 не запустится никогда. 840 миллионов параметров требуют памяти, которой там просто нет.
YOLOv11-nano с его 3.2M параметров работает на Jetson за 8ms. На Raspberry Pi с TPU - за 15ms. Это уже не разница в минутах, а принципиальная возможность запуска.
2. Стриминг и высокие FPS
Видеонаблюдение с 30 кадрами в секунду. Каждый кадр должен обрабатываться за 33ms. SAM 3 с его 1100ms отстает на 35 кадров. YOLO успевает обработать каждый кадр и еще немного поспать.
Но здесь есть нюанс: если вам не нужна обработка каждого кадра, а только по детекции движения или раз в секунду - SAM 3 снова в игре.
3. Экстремальная оптимизация под один класс
У меня был кейс: детекция микротрещин на кремниевых пластинах. Объекты 5-10 пикселей на изображении 4096x4096. YOLOv11, обученный на 10000 таких изображений, показывал mAP 0.92. SAM 3 - 0.68.
Почему? Потому что SAM 3 тренировали на "нормальных" объектах нормального размера. Микроскопические детали - не его сильная сторона.
Практический чеклист: SAM 3 или своя модель?
Задайте себе эти вопросы перед выбором:
1 Сколько у вас данных для обучения?
Меньше 1000 размеченных изображений? Берите SAM 3. От 10000? Можно подумать о своей модели.
Между 1000 и 10000? Проведите A/B тест. Обучите маленькую модель на части данных, сравните с SAM 3 на тестовой выборке. Не забывайте считать общее время - подготовка + обучение + инференс.
2 Как часто меняются требования?
Сегодня ищете кошек, завтра - собак, послезавтра - машины? С SAM 3 вы меняете промпт. Со своей моделью - переразмечаете данные и переучиваете.
В продуктовых командах требования меняются каждую неделю. Фундаментальная модель здесь выигрывает по определению.
3 Какое оборудование в продакшене?
Сервер с A100/H100? SAM 3 работает за 120ms. Разница с YOLO становится не такой драматичной.
Старый сервер с P100 или T4? 1100ms против 20ms - нужно считать экономику.
Edge-устройство? Забудьте про SAM 3. Даже quantized версия не влезет.
Ошибки, которые делают все (и как их избежать)
Ошибка №1: Тестировать на своих данных без калибровки промптов. SAM 3 чувствителен к формулировкам. "Сегментируй дефекты" и "Найди повреждения на поверхности" дадут разный результат. Потратьте час на подбор оптимальных промптов.
Ошибка №2: Не учитывать стоимость разметки данных. На Toloka разметка bounding box стоит $0.01-0.02 за изображение. 10000 изображений = $100-200. Плюс время на контроль качества. SAM 3 экономит эти деньги сразу.
Ошибка №3: Думать, что SAM 3 заменит все. Не заменит. Для edge, для real-time, для экстремальных случаев нужны специализированные модели. Но для 70% бизнес-кейсов - да, заменит.
Что будет дальше? Мой прогноз на 2026-2027
Фундаментальные модели для компьютерного зрения повторят путь LLM. Вот что нас ждет:
- Меньшие версии: SAM 3-small на 150M параметров с инференсом 300ms. Уже в работе.
- Квантованные версии: INT8 quantization снизит требования к памяти в 4 раза. Будет работать на T4.
- Специализированные адаптеры: LoRA для SAM 3. 1% дополнительных параметров, fine-tuning за 2 часа вместо 2 дней.
- Edge-версии: distilled модели от 50M параметров для Jetson и Raspberry Pi. Через 12-18 месяцев.
Прямо сейчас, в январе 2026, мы находимся в переломном моменте. Еще год назад тренировать свои детекторы было нормой. Сегодня это уже вопрос "а зачем?".
Итоговая формула принятия решения
Возьмите калькулятор. Посчитайте:
Общая стоимость кастомной модели = (часы_разметки * ставка) + (часы_тренировки * ставка) + (время_инференса_в_день * 365 * стоимость_инфраструктуры)
Общая стоимость SAM 3 = (время_инференса_в_день * 365 * стоимость_инфраструктуры)
В 80% случаев вторая цифра будет меньше. Иногда - в разы.
Но помните про edge, real-time и экстремальные случаи. Там формула ломается.
Мой совет: начните с SAM 3. Протестируйте на своих данных. Если не подходит - тогда уже тренируйте свою модель. Но не наоборот. Потому что обратный путь - от обученной модели к SAM 3 - будет стоить вам тех 40 часов подготовки, которые уже потрачены.
Компьютерное зрение стало commodity. И это прекрасно.