Беда больших данных с орбиты
Спутниковые снимки — это не красивые картинки из Google Maps. Это терабайты многоспектральных данных, которые нужно переварить за часы, а не недели. Классические трансформеры, которые отлично работают с текстом, на спутниковых изображениях захлебываются: последовательности из миллионов пикселей приводят к квадратичному росту вычислений. Пока модель анализирует один снимок региона, лес уже могут вырубить, а нефтяное пятно — растянуться на километры.
Allen AI ломает стереотипы
Исследователи из Allen Institute for AI (те самые, что подарили миру OLMo) выкатили обновление своей Earth-специализированной модели — OlmoEarth v1.1. Цифры внутри сухие, но эффект — мокрый: ускорение в 3 раза при сохранении точности. Никакого понижения разрешения, никакой магии — только умная инженерия внимания.
Ключевая фишка — трюк с уменьшением длины последовательностей. Вместо того чтобы подавать на вход весь спутниковый кадр как одну гигантскую строку, модель разбивает изображение на патчи, но не тупо — а с перекрытием и динамическим объединением похожих участков. Это похоже на то, как человек быстро сканирует панораму, не вглядываясь в каждую травинку, но замечая аномалии.
В бенчмарках OlmoEarth v1.1 показывает mIoU (mean Intersection over Union) на уровне предыдущей версии, но требует на 66% меньше FLOPs. Разница особенно заметна на сценах с большими однородными областями — водой, лесами, пустынями.
Как это работает без кода (для тех, кто не хочет лезть в Hub)
Если кратко — модель использует адаптивную агрегацию токенов. Вместо того чтобы держать в памяти все пиксели, она склеивает соседние похожие области в один токен, уменьшая размер последовательности в 3–5 раз. Да, это немного грубее, но для задач сегментации и классификации объектов (промзоны, поля, крыши) потерь нет — потому что разрешение сохраняется на уровне патчей, которые остаются маленькими в местах перепадов (границы зданий, дороги).
Ещё один приятный бонус — снижение потребления памяти. На практике это значит, что специалист по геоаналитике может запустить модель на одной карточке A100, а не на кластере. Для сравнения: чтобы обработать снимок Sentinel-2 размером 10 000×10 000 пикселей на старой версии, нужно было 80 ГБ видеопамяти. Теперь — около 28 ГБ.
Кому это реально нужно (спойлер: не только Пентагону)
Да, военные и разведка — очевидные потребители быстрого спутникового анализа. Но есть и гражданские кейсы:
- Аграрии — недавно мы писали про FarmVibes.AI от Microsoft, где открытые алгоритмы помогают считать урожай по космоснимкам. OlmoEarth v1.1 может ускорить такие пайплайны в разы.
- Экологи — мониторинг вырубок лесов в реальном времени (вспомните onboard AI от Planet Labs, но теперь ещё и на земле можно быстро пересчитывать).
- Строительные компании — дешифровка новых построек и контроль застройки без выезда на участок.
Забавно, что Allen AI выкатили модель в тот же месяц, когда WorldView — открытый спутниковый мониторинг — начал тревожить Palantir. Рынок спутникового анализа явно движется в сторону демократизации, и OlmoEarth v1.1 — ещё один кирпич в эту стену.
Где подвох? (спойлер: он есть, но не смертельный)
Ускорение в 3 раза звучит как манна небесная, но на сложных сценах с высокой текстурной неоднородностью (например, городские кварталы с мелкими деталями) агрегация токенов может срезать тонкие границы. В отзывах первых тестировщиков из академических кругов (например, те, кто работал с AlphaEarth Foundations) отмечают, что для задач сверхдетальной сегментации (отдельные деревья, трещины на дорогах) лучше оставить полную версию. Но для 80% задач — это win.
Кстати, подход напоминает то, что сделали ребята из Moebius с Image Inpainting — маленькая модель, которая работает как большая за счёт умной архитектуры. Только здесь не inpainting, а whole-scene understanding.
Что дальше? Прогноз на ближайшие кварталы
Судя по темпу, к концу 2026 года мы увидим интеграцию OlmoEarth v1.1 в популярные GIS-фреймворки (QGIS, ArcGIS). Уже сейчас модель можно запросить через Hugging Face, но готового конвейера для агрономов пока нет. Однако открытая архитектура позволяет дообучать её под свои датасеты — этот тренд мы уже видели на примере DeepEyesV2, где картинки учатся искать по текстовому запросу.
Лично я ставлю на то, что Allen AI не остановится на 3x. Если они смогут скостить ещё в 2 раза — мы получим модель, которая работает на борту мини-спутников без мощного GPU. И тогда тот самый onboard AI от Planet Labs станет не единичным экспериментом, а новой нормой.