Публикация AiManual

Holo3.1: Локальные компьютерные агенты с поддержкой квантований FP8 и GGUF — обзор и производительность

Разбираем Holo3.1 — open-source агент для компьютера с квантизациями FP8 и GGUF. Производительность 82% на OSWorld, запуск на 3090. Обзор и сравнение.

4 мин чтения 07.06.2026

Коротко

Что будет в материале

01
Как это работает
02
С кем конкурирует
03
Кому это нужно
04
Что дальше

Тишина после релиза Holo3 длилась недолго. Команда H Company и NVIDIA выкатили Holo3.1 — и это не мелкий патч, а пересборка. Модель, которая раньше требовала 80 GB VRAM, теперь уживается на обычной 3090 (24 GB) с потерями точности меньше 2%. Результат на OSWorld — 82.3% против 78.85% у предшественника. Звучит как очередной маркетинговый бум? А вот и нет: за этими цифрами стоит реальная инженерная работа.

Главное нововведение — поддержка квантизированных форматов: FP8, GGUF Q4_K_M и NVFP4. Если раньше запуск агента локально был уделом владельцев A100 с водяным охлаждением, то теперь любой гик с RTX 3090 может поселить у себя на компе AI-секретаря, который смотрит на экран и кликает по кнопкам быстрее, чем вы успеваете сказать «перетащи файл». Квантование — это когда веса нейронной сети сжимают, как старый багаж в ручную кладь. Мозги остаются, жир уходит.

Holo3.1 использует архитектуру Mixture of Experts (122B total, 10B active). С квантизацией FP8 модель занимает ~22 GB, GGUF Q4_K_M — около 16 GB. NVFP4 — формат для карт Blackwell, где можно ужать до 4 бит, но пока это экзотика.

Чего стоит 2% падения точности? На практике — почти ничего. Агент всё так же исправно находит скроллящийся список в нестандартном тултипе и не впадает в ступор при виде окна подтверждения «Вы уверены?». Смотреть бенчмарки:

Модель	OSWorld Score	Тип инференса	VRAM (мин)
Holo3.1 FP8	82.3%	Локально (3090/4090)	~22 GB
Holo3.1 GGUF Q4_K_M	79.1%	Локально (3070/4060)	~16 GB
Holo3 (FP16)	78.85%	Облачно	80+ GB

Как это работает

В основе Holo3.1 — MoE-архитектура, но датасет дообучения сменили. Вместо стандартных UI-паттернов накидали редких кейсов: окна с кастомной отрисовкой, нестандартные тултипы, элементы без определённой ARIA-роли. Агент учится «читать» экран глазами, а не просто парсить HTML. Для локального запуска используется связка TensorRT для FP8 и llama.cpp для GGUF. Тут важно сравнение форматов — в статье сравнение скорости квантований Bartowski и Unsloth показало, что выбор бэкенда может дать до 10 токен/с разницы. Для агента, который делает десятки последовательных вызовов, это критично.

Новые технологии квантования, такие как MoQ и GSQ, обещают ещё более эффективное сжатие — об этом мы писали в обзоре революции в низкобитном квантовании GGUF. Holo3.1 пока использует классические методы, но вероятно, в следующих версиях они появятся.

С кем конкурирует

Прямые конкуренты на рынке локальных агентов — Qwen 27B (о котором мы подробно разбирали конфигурации и подводные камни) и Holo2-235B. Qwen на 3090 выдаёт около 60% на OSWorld — результат достойный, но до 82% далеко. Holo2-235B-A22B (см. обзор влияния агентной локализации) показывает 80%, но требует больше VRAM и сложнее в настройке. Holo3.1 выигрывает в компактности и лёгкости развертывания. А если надо запустить целую армию агентов — почитайте руководство по Ollama и Jina AI: Holo3.1 отлично вписывается в роевую архитектуру.

Кому это нужно

Разработчикам автоматизации тестирования — агент может прожимать сотни сценариев, не выходя за пределы вашего дата-центра.
Энтузиастам с одной 3090 — наконец-то есть инструмент, который не просит арендовать облачные GPU. Просто установи, загрузи модель и смотри, как AI сам копирует файлы между папками.
Приватным компаниям, где данные нельзя сливать в облако — Holo3.1 работает полностью локально, все скриншоты и действия остаются на вашей машине.

Не обольщайтесь: если у вас GTX 1060 — GGUF Q4 будет еле ползти. Минимальная конфигурация — RTX 3060 12GB для Q4 и RTX 3090 24GB для FP8. NVFP4 пока поддерживается только на картах Blackwell (RTX 5090).

Пример из жизни: вы просите агента «найти в папке все PDF, переименовать, добавив дату, и отправить на почту через веб-клиент». Раньше для этого приходилось писать скрипты с PyAutoGUI, которые ломались при каждом обновлении интерфейса. Holo3.1 смотрит на экран, как человек, и делает то же самое, но без кофе-брейков.

Что дальше

Holo3.1 — не финал. Уже сейчас видно, как агенты превращаются из игрушки в рабочий инструмент. Следующий шаг — объединение в рои, о котором мы писали в статье про рои. К концу 2026 года, скорее всего, мы увидим агентов, работающих на встроенных GPU ноутбуков. И это пугает и восхищает одновременно. Потому что когда AI начинает сам перетаскивать файлы — это уже не просто чат-бот, а партнёр по работе. Или конкурент.

Подписаться на канал