Что такое OlmoEarth v1.1?

Это новая версия модели от Allen AI для анализа спутниковых снимков, которая ускоряет обработку в 3 раза без потери качества за счёт адаптивного сокращения длины последовательностей.

Какие задачи решает модель?

Сегментацию, классификацию объектов, мониторинг изменений — от сельского хозяйства до экологии и городского планирования.

Как уменьшение последовательностей влияет на точность?

На однородных сценах точность не падает. На высокодетализированных участках возможны незначительные потери, но для большинства практических задач это незаметно.

OlmoEarth v1.1: ускорение обработки спутниковых снимков в 3 раза

Беда больших данных с орбиты

Спутниковые снимки — это не красивые картинки из Google Maps. Это терабайты многоспектральных данных, которые нужно переварить за часы, а не недели. Классические трансформеры, которые отлично работают с текстом, на спутниковых изображениях захлебываются: последовательности из миллионов пикселей приводят к квадратичному росту вычислений. Пока модель анализирует один снимок региона, лес уже могут вырубить, а нефтяное пятно — растянуться на километры.

Allen AI ломает стереотипы

Исследователи из Allen Institute for AI (те самые, что подарили миру OLMo) выкатили обновление своей Earth-специализированной модели — OlmoEarth v1.1. Цифры внутри сухие, но эффект — мокрый: ускорение в 3 раза при сохранении точности. Никакого понижения разрешения, никакой магии — только умная инженерия внимания.

Ключевая фишка — трюк с уменьшением длины последовательностей. Вместо того чтобы подавать на вход весь спутниковый кадр как одну гигантскую строку, модель разбивает изображение на патчи, но не тупо — а с перекрытием и динамическим объединением похожих участков. Это похоже на то, как человек быстро сканирует панораму, не вглядываясь в каждую травинку, но замечая аномалии.

В бенчмарках OlmoEarth v1.1 показывает mIoU (mean Intersection over Union) на уровне предыдущей версии, но требует на 66% меньше FLOPs. Разница особенно заметна на сценах с большими однородными областями — водой, лесами, пустынями.

Как это работает без кода (для тех, кто не хочет лезть в Hub)

Если кратко — модель использует адаптивную агрегацию токенов. Вместо того чтобы держать в памяти все пиксели, она склеивает соседние похожие области в один токен, уменьшая размер последовательности в 3–5 раз. Да, это немного грубее, но для задач сегментации и классификации объектов (промзоны, поля, крыши) потерь нет — потому что разрешение сохраняется на уровне патчей, которые остаются маленькими в местах перепадов (границы зданий, дороги).

Ещё один приятный бонус — снижение потребления памяти. На практике это значит, что специалист по геоаналитике может запустить модель на одной карточке A100, а не на кластере. Для сравнения: чтобы обработать снимок Sentinel-2 размером 10 000×10 000 пикселей на старой версии, нужно было 80 ГБ видеопамяти. Теперь — около 28 ГБ.

Кому это реально нужно (спойлер: не только Пентагону)

Да, военные и разведка — очевидные потребители быстрого спутникового анализа. Но есть и гражданские кейсы:

Аграрии — недавно мы писали про FarmVibes.AI от Microsoft, где открытые алгоритмы помогают считать урожай по космоснимкам. OlmoEarth v1.1 может ускорить такие пайплайны в разы.
Экологи — мониторинг вырубок лесов в реальном времени (вспомните onboard AI от Planet Labs, но теперь ещё и на земле можно быстро пересчитывать).
Строительные компании — дешифровка новых построек и контроль застройки без выезда на участок.

Забавно, что Allen AI выкатили модель в тот же месяц, когда WorldView — открытый спутниковый мониторинг — начал тревожить Palantir. Рынок спутникового анализа явно движется в сторону демократизации, и OlmoEarth v1.1 — ещё один кирпич в эту стену.

Где подвох? (спойлер: он есть, но не смертельный)

Ускорение в 3 раза звучит как манна небесная, но на сложных сценах с высокой текстурной неоднородностью (например, городские кварталы с мелкими деталями) агрегация токенов может срезать тонкие границы. В отзывах первых тестировщиков из академических кругов (например, те, кто работал с AlphaEarth Foundations) отмечают, что для задач сверхдетальной сегментации (отдельные деревья, трещины на дорогах) лучше оставить полную версию. Но для 80% задач — это win.

Кстати, подход напоминает то, что сделали ребята из Moebius с Image Inpainting — маленькая модель, которая работает как большая за счёт умной архитектуры. Только здесь не inpainting, а whole-scene understanding.

Что дальше? Прогноз на ближайшие кварталы

Судя по темпу, к концу 2026 года мы увидим интеграцию OlmoEarth v1.1 в популярные GIS-фреймворки (QGIS, ArcGIS). Уже сейчас модель можно запросить через Hugging Face, но готового конвейера для агрономов пока нет. Однако открытая архитектура позволяет дообучать её под свои датасеты — этот тренд мы уже видели на примере DeepEyesV2, где картинки учатся искать по текстовому запросу.

Лично я ставлю на то, что Allen AI не остановится на 3x. Если они смогут скостить ещё в 2 раза — мы получим модель, которая работает на борту мини-спутников без мощного GPU. И тогда тот самый onboard AI от Planet Labs станет не единичным экспериментом, а новой нормой.

Подписаться на канал

OlmoEarth v1.1: спутниковые снимки теперь в три раза быстрее — и без компромиссов