Еще один веб-агент? Нет, тот самый

Вы настраивали локальные LLM для браузера, пытались сжать DOM, ругались на вес скриншотов. И вот он – MolmoWeb от AllenAI. Не очередной пересказ старой идеи, а радикально другой подход. Модель на 8 миллиардов параметров, которая на бенчмарке WebVoyager показывает 54.2% успеха. Для сравнения: GPT-4o Vision в той же задаче – 48.3%. Закрытая модель в 40 раз больше проигрывает открытой восьмимиллиардке. Звучит как шутка, но это данные на март 2026 года.

💡

MolmoWeb – это не просто модель. Это энд-ту-энд система (агент), которая воспринимает веб-страницу как мультимодальные данные (текст + скриншот), планирует действия и выполняет их. Ключевой прорыв – метод test-time scaling, который динамически адаптирует модель к сложности задачи.

Из чего собран этот Франкенштейн

Архитектура MolmoWeb – это три слоя, которые работают вместе так гладко, что не верится в open source.

Ядро – Mistral-8B. Да, та самая модель, но доработанная под мультимодальность. Вместо того чтобы учить с нуля, разработчики из AllenAI взяли сильную текстовую базу и добавили способность "видеть".
Визуальный кодировщик – SigLIP-SO400M. Это не CLIP из 2023 года. SigLIP-SO400M – новая, эффективная модель для сопоставления изображений и текста, обученная с сигмоидной потерей. Она превращает скриншот страницы в компактные эмбеддинги, которые Mistral может понять.
Модуль действий. Специально обученный головной модуль, который преобразует размышления модели в конкретные команды для браузера: CLICK [x, y], TYPE [text], SCROLL, WAIT.

Но главный секрет – test-time scaling (TTS). Вместо того чтобы использовать фиксированную модель, система динамически выбирает, сколько "вычислительных ресурсов" (читай: шагов цепочки рассуждений) потратить на текущий шаг задачи. Простая кнопка – один шаг. Сложная форма с капчей – десяток. Это то, о чем мы мечтали в статье про локальных агентных AI, но не могли реализовать без огромных моделей.

Модель / Система	Успех на WebVoyager	Параметры	Открытые веса
GPT-4o Vision (March 2026)	48.3%	~1.8 трлн*	Нет
MolmoWeb 8B (v2.1)	54.2%	8B	Да (Hugging Face)
TextWeb + Qwen 8B (наш старый подход)	~32%	8B	Да

Запустить за 15 минут. Серьезно?

Веса лежат на Hugging Face. Документация есть. Но собрать все в работающий агент – тот еще квест. Основа – их официальный репозиторий. Клонируешь, ставишь зависимости. Тут начинается первая боль: для визуального кодировщика нужны специфические версии torch и transformers. Не совпали версии? Модель не загрузится.

Главный подводный камень – память. Полная версия с SigLIP требует около 16GB GPU RAM. Если видеокарты слабее, нужно использовать квантованную версию модели (GGUF) или уменьшать размер скриншотов. Для тестов хватит и 8GB, но производительность упадет.

1 Берем готовый контейнер (проще всего)

AllenAI выложили Docker-образ с предустановленным окружением. Это спасение для тех, кто не хочет разбираться с версиями питона. Качаешь образ, запускаешь контейнер с пробросом порта – и получаешь готовый HTTP API, который принимает задачи типа "закажи пиццу на сайте dominos.ru".

2 Интегрируем в свой пайплайн

Если хочется больше контроля, можно использовать модель как ядро внутри своего агента, например, на базе Agent Browser Workspace. Загружаешь веса через transformers, подключаешь драйвер браузера через selenium или playwright, и пишешь простой цикл: сделать скриншот -> закодировать -> спросить модель -> выполнить действие.

Но вот вопрос: зачем городить это самому, если можно использовать единый API для доступа к разным моделям? Например, через AITunnel, который предоставляет стабильный доступ к мощным нейросетям, включая актуальные версии GPT и Claude. Для продакшена, где важна стабильность, это часто разумнее.

Чем он реально лучше GPT-4o?

Цена. Запускаешь на своем железе – платишь только за электричество. Контроль. Все происходит локально, никаких данных в облако. Скорость. Нет сетевой задержки в 300-500 мс на запрос к API. Но главное – специализация.

GPT-4o – универсальный гений. Он напишет стихи, решит уравнение, объяснит квантовую физику. Но когда нужно просто кликнуть на шестую кнопку в третьем ряду, его размышления избыточны. MolmoWeb обучен на тысячах часов взаимодействия с браузером. Он не "думает", он действует. Это как сравнивать швейцарский нож и скальпель хирурга.

💡

Практический пример: автоматизация заказа такси. MolmoWeb открывает сайт, вводит адрес, выбирает тариф, нажимает "Заказать". GPT-4o часто "зависает" на выборе тарифа, начинает рассуждать о преимуществах эконом-класса, теряет фокус. MolmoWeb делает это за 3-4 шага без лишних раздумий.

Кому это впишется в стек, а кому нет

Берите MolmoWeb, если: у вас есть команда AI-инженеров, которые любят ковыряться в open source; задачи – рутинная автоматизация веб-интерфейсов (тестирование, скрапинг, боты); бюджет на облачные API GPT-4o превышает стоимость двух видеокарт.

Обойдите стороной, если: вам нужна "магия" из коробки без настройки; ваши задачи выходят за рамки браузера (анализ документов, диалог); нет ресурсов на поддержку локальной инфраструктуры. Тогда лучше посмотреть в сторону облачных агентных платформ или того же AITunnel для доступа к мощным моделям по API.

MolmoWeb – не панацея. Это специализированный инструмент, который показывает, куда движется индустрия: от гигантских универсальных моделей к семье компактных, эффективных экспертов. Через год такие агенты будут встраиваться в каждый второй продукт, о котором мы пишем. И те, кто разобрался с ними сейчас, получат фору.

Подписаться на канал

MolmoWeb 8B: как запустить мультимодального веб-агента, который превосходит GPT-4o