Сколько времени занимает детекция пожара на борту с LFM2.5-VL?

По данным разработчиков, инференс занимает менее 500 миллисекунд на специализированном FPGA-ускорителе после квантизации модели.

Почему для детекции пожаров используют Vision-Language модель, а не обычную CNN?

VLM может генерировать текстовое описание очага (площадь, интенсивность) и подтверждать свои выводы, что снижает количество ложных срабатываний и позволяет передавать на Землю не полный снимок, а краткий отчёт.

LFM2.5-VL: 450M VLM детектирует лесные пожары на спутниках

Лесные пожары — проблема, которая в 2025–2026 годах стала только острее. Спутники группировки Copernicus видят дым за тысячи километров, но между снимком и решением «что делать?» часто проходят часы. Причина — терабайты данных, которые нужно сперва передать на Землю, обработать, и только потом понять, где именно пожар. Безумие, правда? Камера в лесу (вроде тех, что анализирует SpeciesNet) умнее бортового компьютера спутника, потому что не ждёт команды с Земли. Но ситуация меняется.

450 миллионов параметров на орбите — шутка?

Нет. Исследователи (имена пока скрыты до публикации) представили пайплайн LFM2.5-VL — компактную Vision-Language модель с 450M параметров, заточенную под спутниковые снимки Sentinel-2. В теории это работает так: спутник делает снимок, модель прямо на борту отвечает на вопрос «Есть ли признаки пожара?» и, если да, передаёт не мультиспектральный тайл весом в гигабайт, а короткий текстовый ответ и координаты. Экономия пропускной способности — в 10 000 раз.

Ключевая фишка: LFM2.5-VL не просто классификатор «огонь/не огонь». Это настоящая VLM, которая может объяснить, почему приняла решение. Например: «Область пикселей 45–67 демонстрирует аномальное тепловое излучение в SWIR-канале при отсутствии облачности». Прозрачность, которой не хватало традиционным CNN.

Как запихнуть VLM в спутник без «зоны убийства»?

Архитектура LFM2.5-VL напоминает гибрид текстового энкодера и визуального трансформера, но с критической оптимизацией. Авторы, судя по всему, учли проблему «лоботомических слоёв» — когда после fine-tuning модель теряет здравый смысл. В LFM2.5-VL применили технику постепенной разморозки слоёв с использованием LoRA-адаптеров, что позволило сохранить семантику, обученную на миллионах пар «изображение-текст».

На практике пайплайн выглядит так: спутник получает мультиспектральный тайл (13 каналов Sentinel-2, 10–60 м разрешение), модель сжимает его в визуальные токены через Vision Transformer (ViT-B/16), затем крос-аттеншн с текстовым промптом (например, «Is there a wildfire in this area? Describe its size and intensity») генерирует ответ. Весь процесс — меньше 500 миллисекунд на одном AI-ускорителе (VL-JEPA на Apple Silicon показывает похожие задержки, но LFM2.5-VL специально квантизирован для FPGA-чипов).

Почему VLM, а не старый добрый CNN?

CNN отлично детектят дым и термальные аномалии — это доказали дроны XPrize. Но спутник работает в другом масштабе: один снимок покрывает 290 км². CNN на таких данных страдает от ложных срабатываний (блики на воде, строительная техника), а VLM может запросить дополнительный контекст. LFM2.5-VL обучена на датасете из 2,3 млн пар «снимок + текстовое описание», включая синтетические данные с симуляциями дыма разной плотности. По предварительным тестам, точность (F1) достигает 0,94 на тестовом наборе, а доля ложных тревог — 0,03.

💡

Важно: модель умеет работать с запросами на естественном языке. Диспетчер может написать «Покажи пожары на территории Yakutsk с вероятностью > 80%» — и спутник сам отфильтрует снимки, не нагружая канал.

Onboard VS Cloud: эволюция, а не революция

Идея «умного спутника» не нова: WorldView от Maxar и ИИ-лесничий DeepMind уже доказывают ценность onboard AI. Но LFM2.5-VL — первый случай, когда полноценная Vision-Language модель с 450M параметров работает на борту. Для сравнения: современные спутники используют CNN с 1–5M параметров, которые не умеют генерировать текст. Зачем текст? Чтобы передавать не только факт возгорания, но и его характеристику: площадь, температуру, динамику за час.

Кстати, обучение LFM2.5-VL проходило на кластере из 64 A100 — Large Plant Model использовал схожий подход, но для агрономии. Если захотите дообучить модель под свой регион, не обязательно запускать спутник — достаточно арендовать GPU в облаке, например Google Cloud Deep Learning VM. А вот запускать инференс на орбите придётся на специализированных чипах — NVIDIA Jetson в космическом исполнении уже проходят испытания.

Не всё так гладко: квантизация, радиация и жара

Главная головная боль разработчиков — квантизация. LFM2.5-VL в полной точности (float32) весит 1,8 ГБ — для спутника это дофига. После квантизации до int8 модель сжимается до 450 МБ, но точность падает на 1,2%. Авторы утверждают, что это приемлемо, но инженерам LoRA-хирургии придётся повозиться с поиском оптимальных слоёв для квантизации. Вторая проблема — радиация: single-event upsets могут исказить веса. Решение — тройное резервирование с голосованием на уровне FPGA, что удваивает энергопотребление.

Важный нюанс: onboard VLM не заменяет наземные модели вроде Qwen2.5-VL с LoRA, которые анализируют архивные данные. LFM2.5-VL — первый эшелон, скорая помощь.

Что дальше? Спутниковая группировка как единый мозг

Если LFM2.5-VL покажет себя на орбите (первые испытания на МКС запланированы на июнь 2026), модель может стать стандартом для CubeSat-группировок. Представьте: 100 спутников образуют децентрализованную grid-computing сеть, где каждый бортовой AI обменивается текстовыми отчётами, не нагружая канал. Прощай, 30-минутная задержка? Ответ неочевиден: сами спутники начнут конкурировать за вычислительные ресурсы внутри группировки. Думаю, к 2027 году мы увидим первую в истории битву AI-алгоритмов на орбите — чья VLM быстрее распознает пожар и «отвоюет» право передать данные на Землю.

Подписаться на канал

Спутник научился видеть огонь: пайплайн LFM2.5-VL сжимает 450M параметров VLM в бортовой детектор пожаров