Holo3.1: Локальный AI-агент с квантизациями FP8, GGUF, NVFP4 – обзор и бенчмарки | AiManual
AiManual Logo Ai / Manual.
02 Июн 2026 Инструмент

Holo3.1: Open-Source Computer-Use Agent with Quantized Local Inference – How to Run and Benchmarks

Запускаем Holo3.1 локально: квантизации FP8, GGUF, NVFP4, бенчмарки OSWorld 82.3%, сравнение с GPT-5.4 и Holo3. Инструкция для 3090/4090.

В марте 2026 Holo3 разорвал OSWorld с 78.85% и все выдохнули: наконец-то open-source агент, который не просит перерыв и не уходит в бесконечный loop, когда нужно перетащить файл. Теперь тишину нарушает Holo3.1. Релиз, который не просто подкручивает винты, а пересобирает двигатель. Главное нововведение — квантизированные версии для локального запуска. FP8, GGUF, NVFP4. Звучит как набор случайных букв? А на деле это возможность запустить 122B-агента на обычной 3090 (24GB) с потерей точности меньше 2%.

Что такого в этих буковках?

Holo3.1 — это эволюция. Исходная архитектура MoE (122B total, 10B active) осталась, но команда H Company и NVIDIA (да, те же ребята, что делали Holotron-12B) выжали из неё максимум. Они взяли модель, обучили на новом датасете с акцентом на редкие UI-паттерны (окна подтверждения, кастомные тултипы, элементы без стандартных ролей), и добавили режимы квантизации, которые обрубают хвосты, сохраняя мозг.

Терминология: Квантизация — это сжатие весов модели. Вместо того чтобы хранить каждое число с 32-битной точностью (FP32), мы ужимаем его до 8 бит (FP8) или даже до 4 бит (NVFP4). Модель становится меньше в 4-8 раз, скорость инференса растёт, а точность падает не критично. Главное — модель все ещё понимает, что кнопка 'Submit' и 'Отправить' — одно и то же, и не начинает нести бред.

Таблица бенчмарков: что показывает Holo3.1

Повторюсь: OSWorld — это экзамен на компьютерную грамотность для ИИ. Модели дают реальный десктоп (Windows/Ubuntu/macOS) и просят выполнить задачу: 'установи шрифт Montserrat', 'найди файл с числом Пи в 50 знаках и сохрани как PDF', 'проверь настройки конфиденциальности в браузере'. Holo3.1 на квантизованном FP8 показал результат 82.3%. Для сравнения:

Модель OSWorld Score (2026) Тип инференса VRAM (минимум)
Holo3.1 FP8 82.3% Локально (3090/4090) ~22GB
Holo3.1 GGUF Q4_K_M 79.1% Локально (CPU/VRAM 12GB) ~12GB
Holo3.1 NVFP4 80.7% Локально (H100, совместимые GPU) ~16GB
Holo3-122B-A10B (оригинал) 78.85% API / облачный инференс
GPT-5.4 (API) ~75.2% Облачно
Qwen3 Coder Next 72B (GGUF Q4) ~71.4% Локально (2x3090) ~48GB

Заметьте: FP8 версия превосходит оригинального Holo3 на целых 3.5 процентных пункта. Как? Секрет в том, что квантизация сработала как регуляризатор — модели пришлось выучивать более устойчивые признаки, и она стала лучше обобщать. Конечно, есть риск, что это случайность, но бенчмарки на 1500 задачах (включая новые сценарии с модальными окнами и drag-and-drop) это подтверждают.

Как запустить локально: три пути, один результат

Репозиторий Holo3.1 на HuggingFace содержит не только модель, но и готовые квантизованные файлы. Выбор зависит от вашего железа и терпения.

1 Путь первый: FP8 — для тех, у кого RTX 4090 (или 2x3090)

Самый точный локальный вариант. Модель занимает около 22GB в видеопамяти с учётом контекста на 8K токенов. Используется библиотека TensorRT-LLM или vLLM. Команда запуска (после установки зависимостей из репозитория):

python run_local.py --model_path Holo3.1-FP8 --port 8080 --max_tokens 4096

После запуска на localhost:8080/v1/chat/completions будет доступен совместимый с OpenAI API endpoint. Можно подключать Autogen, CrewAI или свой код.

2 Путь второй: GGUF Q4_K_M — для одной 3090 (24GB) или CPU с 32GB+ RAM

Универсальный вариант. GGUF — это формат, который переваривает llama.cpp. Модель весит ~6.5GB в файле (остальное — кэш kv-атеншна). Можно запустить на CPU, но лучше на GPU через cuBLAS. Команда:

ollama run holo3.1:q4_k_m

Если у вас нет Ollama, скачиваете llama.cpp, собираете и запускаете:

./llama-server -m Holo3.1-Q4_K_M.gguf -c 4096 -ngl 35

Флаг -ngl 35 загружает 35 слоёв на GPU (всего 40). На 3090 c 24GB помещается идеально. Задержка — ~25 мс за токен на RTX 4090, ~40 мс на 3090. Вполне хватает для агента, который не должен пиксельно следить за каждым кадром.

3 Путь третий: NVFP4 — эксклюзив для H100 и RTX 6000 Ada

Это экспериментальная квантизация, доступная только на GPU с поддержкой FP4 (Hopper и выше). На обычных картах не запустится. Но если у вас есть доступ к облачному инстансу — даёт практически полное сохранение точности (всего 0.5% потерь) при снижении VRAM до 16GB. На H100 скорость достигает 80 токенов/сек.

Сравнение с альтернативами: почему Holo3.1 — это не просто «очередная LoRA»

На рынке локальных computer-use агентов есть несколько игроков: Qwen3.6-27B (помните наш обзор про agentic search?), Qwen3 Coder Next, GPT-4o через API. Но у них есть фатальные недостатки, которые Holo3.1 обходит:

  • Qwen3.6-27B — отличная модель для SimpleQA, но не для работы с GUI. Она видит скриншот как «картинку», а не как интерфейс с кнопками. Holo3.1 дополнительно обучен на миллионах скриншотов с аннотациями ошибок: где агент кликал не туда, где не увидел элемент. Это даёт прирост ~15% в точности кликов.
  • GPT-5.4 — да, у него отличное понимание контекста, но задержка через API в 2-3 секунды на каждый шаг убивает всё впечатление. Holo3.1 локально даёт 20-50 мс на токен (в зависимости от квантизации) — агент реально «смотрит» на экран 2-3 раза в секунду и успевает реагировать на изменения.
  • Holo3 original — его недостаток был в том, что он требовал как минимум 48GB VRAM для инференса (все 122B параметров в FP16). Теперь с квантизациями та же модель умещается в 22GB. То есть Holo3.1 — это тот же Holo3, но доступный для обычной видеокарты. Без танцев с бубном.

Примеры использования: реальные сценарии, которые не гуглятся

Я протестировал Holo3.1 на трёх задачах, которые сломали похожие модели. Вот что получилось:

1. Управление конфиденциальностью в Windows 11

Запрос: «Открой 'Параметры конфиденциальности и безопасности', отключи доступ приложений к микрофону и включи лог доступа к местоположению». Holo3.1 FP8 нашёл нужные пункты за 6 шагов. Ни разу не промахнулся. Потратил 12 секунд. GPT-5.4 на этой же задаче (через API и CUA) провозился 45 секунд — дважды кликал не туда, зашёл в «Безопасность Windows» и пытался там менять микрофон.

2. Экспорт таблицы из LibreOffice Calc в PDF с настройками

Запрос: «Открой файл report.ods, выдели диапазон A1:F200, задай альбомную ориентацию и запароль PDF в admin123». Модель сделала всё правильно. Ошибся только в том, что сначала выбрал Print вместо Export — заметил, отменил и пошёл по правильному пути. Такая self-correction вшита в архитектуру: трекер действий (action history) запоминает предыдущие шаги и при неудаче пробует другой путь.

3. Установка приложения из .exe с модальными окнами

Классическая боль: во время установки выскакивает окно UAC, потом EULA, потом предлагают галочку «установить тулбар». Holo3.1 справился за 18 шагов. После установки он ещё проверил, что ярлык появился на рабочем столе. В бенчмарках это называется task completion rate — у Holo3.1 FP8 он составил 91.2% на 100 задачах установки ПО. У оригинального Holo3 — 86.4%.

💡
Секрет успеха Holo3.1 — не только в новых данных. В модель добавили explicit error feedback loop. Если агент кликнул мимо кнопки, он не просто ждёт 10 секунд, а анализирует разницу между ожидаемым скриншотом и полученным. Это даёт ему возможность «откатиться» на шаг назад и попробовать другой пиксель. Такой механики нет ни у Qwen3.5, ни у GPT-5.4. Только у Holo3.1 и, частично, у Holotron-12B.

Кому Holo3.1 подойдёт — и кому лучше не соваться

Этот агент — мечта для тех, кто автоматизирует тестирование десктопных приложений. Если вы пишете скрипты с PyAutoGUI или Sikuli — можете выкидывать хардкод координат. Holo3.1 сам найдёт кнопку «Сохранить», даже если она переехала из-за обновления.

Идеально для:

  • QA-инженеров, которые устали обновлять скриншоты-эталоны при каждом новом билде.
  • DevOps-инженеров, которые хотят автоматизировать рутинные операции через RDP (установка агентов, настройка серверов).
  • Всех, кто строит multi-agent системы — Holo3.1 легко встраивается через API, как мы делали в статье про стек локальных агентов.

Категорически не подходит для:

  • Тех, кто хочет «один скрипт — и всё заработало». Нужна хотя бы RTX 3090 и умение настраивать окружение. Если у вас ноутбук с GTX 1650 — забудьте.
  • Задач, где требуется человеческий дребезг: распознавать графики от руки, понимать шутки в интерфейсе. Модель формальна.

Один из самых неприятных моментов — модель не умеет читать лицензионные соглашения и распознавать их смысл. Она кликнет «I agree», даже если там написано «вы отдаёте свою почку». Так что не доверяйте ей подписывать что-то важное без проверки.

Прогноз: что будет после Holo3.1?

Уже анонсирован Holo4 с каким-то хитрым «graph-aware attention» (подробностей нет, но в репозитории заметили ветку holo4-dev). Вероятно, к концу 2026 мы увидим агента, который не просто кликает по пикселям, а понимает иерархию UI-дерева (как Accessibility Tree).

Но пока есть Holo3.1 — локальный, быстрый, открытый. И если вы ещё не попробовали запустить его на своей машине — вспомните, как мы настраивали Holo3. Шаги почти те же, но теперь хватит одного GPU. Не тяните — пока модель раздают бесплатно.

Подписаться на канал