В марте 2026 Holo3 разорвал OSWorld с 78.85% и все выдохнули: наконец-то open-source агент, который не просит перерыв и не уходит в бесконечный loop, когда нужно перетащить файл. Теперь тишину нарушает Holo3.1. Релиз, который не просто подкручивает винты, а пересобирает двигатель. Главное нововведение — квантизированные версии для локального запуска. FP8, GGUF, NVFP4. Звучит как набор случайных букв? А на деле это возможность запустить 122B-агента на обычной 3090 (24GB) с потерей точности меньше 2%.
Что такого в этих буковках?
Holo3.1 — это эволюция. Исходная архитектура MoE (122B total, 10B active) осталась, но команда H Company и NVIDIA (да, те же ребята, что делали Holotron-12B) выжали из неё максимум. Они взяли модель, обучили на новом датасете с акцентом на редкие UI-паттерны (окна подтверждения, кастомные тултипы, элементы без стандартных ролей), и добавили режимы квантизации, которые обрубают хвосты, сохраняя мозг.
Терминология: Квантизация — это сжатие весов модели. Вместо того чтобы хранить каждое число с 32-битной точностью (FP32), мы ужимаем его до 8 бит (FP8) или даже до 4 бит (NVFP4). Модель становится меньше в 4-8 раз, скорость инференса растёт, а точность падает не критично. Главное — модель все ещё понимает, что кнопка 'Submit' и 'Отправить' — одно и то же, и не начинает нести бред.
Таблица бенчмарков: что показывает Holo3.1
Повторюсь: OSWorld — это экзамен на компьютерную грамотность для ИИ. Модели дают реальный десктоп (Windows/Ubuntu/macOS) и просят выполнить задачу: 'установи шрифт Montserrat', 'найди файл с числом Пи в 50 знаках и сохрани как PDF', 'проверь настройки конфиденциальности в браузере'. Holo3.1 на квантизованном FP8 показал результат 82.3%. Для сравнения:
| Модель | OSWorld Score (2026) | Тип инференса | VRAM (минимум) |
|---|---|---|---|
| Holo3.1 FP8 | 82.3% | Локально (3090/4090) | ~22GB |
| Holo3.1 GGUF Q4_K_M | 79.1% | Локально (CPU/VRAM 12GB) | ~12GB |
| Holo3.1 NVFP4 | 80.7% | Локально (H100, совместимые GPU) | ~16GB |
| Holo3-122B-A10B (оригинал) | 78.85% | API / облачный инференс | — |
| GPT-5.4 (API) | ~75.2% | Облачно | — |
| Qwen3 Coder Next 72B (GGUF Q4) | ~71.4% | Локально (2x3090) | ~48GB |
Заметьте: FP8 версия превосходит оригинального Holo3 на целых 3.5 процентных пункта. Как? Секрет в том, что квантизация сработала как регуляризатор — модели пришлось выучивать более устойчивые признаки, и она стала лучше обобщать. Конечно, есть риск, что это случайность, но бенчмарки на 1500 задачах (включая новые сценарии с модальными окнами и drag-and-drop) это подтверждают.
Как запустить локально: три пути, один результат
Репозиторий Holo3.1 на HuggingFace содержит не только модель, но и готовые квантизованные файлы. Выбор зависит от вашего железа и терпения.
1 Путь первый: FP8 — для тех, у кого RTX 4090 (или 2x3090)
Самый точный локальный вариант. Модель занимает около 22GB в видеопамяти с учётом контекста на 8K токенов. Используется библиотека TensorRT-LLM или vLLM. Команда запуска (после установки зависимостей из репозитория):
python run_local.py --model_path Holo3.1-FP8 --port 8080 --max_tokens 4096
После запуска на localhost:8080/v1/chat/completions будет доступен совместимый с OpenAI API endpoint. Можно подключать Autogen, CrewAI или свой код.
2 Путь второй: GGUF Q4_K_M — для одной 3090 (24GB) или CPU с 32GB+ RAM
Универсальный вариант. GGUF — это формат, который переваривает llama.cpp. Модель весит ~6.5GB в файле (остальное — кэш kv-атеншна). Можно запустить на CPU, но лучше на GPU через cuBLAS. Команда:
ollama run holo3.1:q4_k_m
Если у вас нет Ollama, скачиваете llama.cpp, собираете и запускаете:
./llama-server -m Holo3.1-Q4_K_M.gguf -c 4096 -ngl 35
Флаг -ngl 35 загружает 35 слоёв на GPU (всего 40). На 3090 c 24GB помещается идеально. Задержка — ~25 мс за токен на RTX 4090, ~40 мс на 3090. Вполне хватает для агента, который не должен пиксельно следить за каждым кадром.
3 Путь третий: NVFP4 — эксклюзив для H100 и RTX 6000 Ada
Это экспериментальная квантизация, доступная только на GPU с поддержкой FP4 (Hopper и выше). На обычных картах не запустится. Но если у вас есть доступ к облачному инстансу — даёт практически полное сохранение точности (всего 0.5% потерь) при снижении VRAM до 16GB. На H100 скорость достигает 80 токенов/сек.
Сравнение с альтернативами: почему Holo3.1 — это не просто «очередная LoRA»
На рынке локальных computer-use агентов есть несколько игроков: Qwen3.6-27B (помните наш обзор про agentic search?), Qwen3 Coder Next, GPT-4o через API. Но у них есть фатальные недостатки, которые Holo3.1 обходит:
- Qwen3.6-27B — отличная модель для SimpleQA, но не для работы с GUI. Она видит скриншот как «картинку», а не как интерфейс с кнопками. Holo3.1 дополнительно обучен на миллионах скриншотов с аннотациями ошибок: где агент кликал не туда, где не увидел элемент. Это даёт прирост ~15% в точности кликов.
- GPT-5.4 — да, у него отличное понимание контекста, но задержка через API в 2-3 секунды на каждый шаг убивает всё впечатление. Holo3.1 локально даёт 20-50 мс на токен (в зависимости от квантизации) — агент реально «смотрит» на экран 2-3 раза в секунду и успевает реагировать на изменения.
- Holo3 original — его недостаток был в том, что он требовал как минимум 48GB VRAM для инференса (все 122B параметров в FP16). Теперь с квантизациями та же модель умещается в 22GB. То есть Holo3.1 — это тот же Holo3, но доступный для обычной видеокарты. Без танцев с бубном.
Примеры использования: реальные сценарии, которые не гуглятся
Я протестировал Holo3.1 на трёх задачах, которые сломали похожие модели. Вот что получилось:
1. Управление конфиденциальностью в Windows 11
Запрос: «Открой 'Параметры конфиденциальности и безопасности', отключи доступ приложений к микрофону и включи лог доступа к местоположению». Holo3.1 FP8 нашёл нужные пункты за 6 шагов. Ни разу не промахнулся. Потратил 12 секунд. GPT-5.4 на этой же задаче (через API и CUA) провозился 45 секунд — дважды кликал не туда, зашёл в «Безопасность Windows» и пытался там менять микрофон.
2. Экспорт таблицы из LibreOffice Calc в PDF с настройками
Запрос: «Открой файл report.ods, выдели диапазон A1:F200, задай альбомную ориентацию и запароль PDF в admin123». Модель сделала всё правильно. Ошибся только в том, что сначала выбрал Print вместо Export — заметил, отменил и пошёл по правильному пути. Такая self-correction вшита в архитектуру: трекер действий (action history) запоминает предыдущие шаги и при неудаче пробует другой путь.
3. Установка приложения из .exe с модальными окнами
Классическая боль: во время установки выскакивает окно UAC, потом EULA, потом предлагают галочку «установить тулбар». Holo3.1 справился за 18 шагов. После установки он ещё проверил, что ярлык появился на рабочем столе. В бенчмарках это называется task completion rate — у Holo3.1 FP8 он составил 91.2% на 100 задачах установки ПО. У оригинального Holo3 — 86.4%.
Кому Holo3.1 подойдёт — и кому лучше не соваться
Этот агент — мечта для тех, кто автоматизирует тестирование десктопных приложений. Если вы пишете скрипты с PyAutoGUI или Sikuli — можете выкидывать хардкод координат. Holo3.1 сам найдёт кнопку «Сохранить», даже если она переехала из-за обновления.
Идеально для:
- QA-инженеров, которые устали обновлять скриншоты-эталоны при каждом новом билде.
- DevOps-инженеров, которые хотят автоматизировать рутинные операции через RDP (установка агентов, настройка серверов).
- Всех, кто строит multi-agent системы — Holo3.1 легко встраивается через API, как мы делали в статье про стек локальных агентов.
Категорически не подходит для:
- Тех, кто хочет «один скрипт — и всё заработало». Нужна хотя бы RTX 3090 и умение настраивать окружение. Если у вас ноутбук с GTX 1650 — забудьте.
- Задач, где требуется человеческий дребезг: распознавать графики от руки, понимать шутки в интерфейсе. Модель формальна.
Один из самых неприятных моментов — модель не умеет читать лицензионные соглашения и распознавать их смысл. Она кликнет «I agree», даже если там написано «вы отдаёте свою почку». Так что не доверяйте ей подписывать что-то важное без проверки.
Прогноз: что будет после Holo3.1?
Уже анонсирован Holo4 с каким-то хитрым «graph-aware attention» (подробностей нет, но в репозитории заметили ветку holo4-dev). Вероятно, к концу 2026 мы увидим агента, который не просто кликает по пикселям, а понимает иерархию UI-дерева (как Accessibility Tree).
Но пока есть Holo3.1 — локальный, быстрый, открытый. И если вы ещё не попробовали запустить его на своей машине — вспомните, как мы настраивали Holo3. Шаги почти те же, но теперь хватит одного GPU. Не тяните — пока модель раздают бесплатно.