Тишина после релиза Holo3 длилась недолго. Команда H Company и NVIDIA выкатили Holo3.1 — и это не мелкий патч, а пересборка. Модель, которая раньше требовала 80 GB VRAM, теперь уживается на обычной 3090 (24 GB) с потерями точности меньше 2%. Результат на OSWorld — 82.3% против 78.85% у предшественника. Звучит как очередной маркетинговый бум? А вот и нет: за этими цифрами стоит реальная инженерная работа.
Главное нововведение — поддержка квантизированных форматов: FP8, GGUF Q4_K_M и NVFP4. Если раньше запуск агента локально был уделом владельцев A100 с водяным охлаждением, то теперь любой гик с RTX 3090 может поселить у себя на компе AI-секретаря, который смотрит на экран и кликает по кнопкам быстрее, чем вы успеваете сказать «перетащи файл». Квантование — это когда веса нейронной сети сжимают, как старый багаж в ручную кладь. Мозги остаются, жир уходит.
Holo3.1 использует архитектуру Mixture of Experts (122B total, 10B active). С квантизацией FP8 модель занимает ~22 GB, GGUF Q4_K_M — около 16 GB. NVFP4 — формат для карт Blackwell, где можно ужать до 4 бит, но пока это экзотика.
Чего стоит 2% падения точности? На практике — почти ничего. Агент всё так же исправно находит скроллящийся список в нестандартном тултипе и не впадает в ступор при виде окна подтверждения «Вы уверены?». Смотреть бенчмарки:
| Модель | OSWorld Score | Тип инференса | VRAM (мин) |
|---|---|---|---|
| Holo3.1 FP8 | 82.3% | Локально (3090/4090) | ~22 GB |
| Holo3.1 GGUF Q4_K_M | 79.1% | Локально (3070/4060) | ~16 GB |
| Holo3 (FP16) | 78.85% | Облачно | 80+ GB |
Как это работает
В основе Holo3.1 — MoE-архитектура, но датасет дообучения сменили. Вместо стандартных UI-паттернов накидали редких кейсов: окна с кастомной отрисовкой, нестандартные тултипы, элементы без определённой ARIA-роли. Агент учится «читать» экран глазами, а не просто парсить HTML. Для локального запуска используется связка TensorRT для FP8 и llama.cpp для GGUF. Тут важно сравнение форматов — в статье сравнение скорости квантований Bartowski и Unsloth показало, что выбор бэкенда может дать до 10 токен/с разницы. Для агента, который делает десятки последовательных вызовов, это критично.
Новые технологии квантования, такие как MoQ и GSQ, обещают ещё более эффективное сжатие — об этом мы писали в обзоре революции в низкобитном квантовании GGUF. Holo3.1 пока использует классические методы, но вероятно, в следующих версиях они появятся.
С кем конкурирует
Прямые конкуренты на рынке локальных агентов — Qwen 27B (о котором мы подробно разбирали конфигурации и подводные камни) и Holo2-235B. Qwen на 3090 выдаёт около 60% на OSWorld — результат достойный, но до 82% далеко. Holo2-235B-A22B (см. обзор влияния агентной локализации) показывает 80%, но требует больше VRAM и сложнее в настройке. Holo3.1 выигрывает в компактности и лёгкости развертывания. А если надо запустить целую армию агентов — почитайте руководство по Ollama и Jina AI: Holo3.1 отлично вписывается в роевую архитектуру.
Кому это нужно
- Разработчикам автоматизации тестирования — агент может прожимать сотни сценариев, не выходя за пределы вашего дата-центра.
- Энтузиастам с одной 3090 — наконец-то есть инструмент, который не просит арендовать облачные GPU. Просто установи, загрузи модель и смотри, как AI сам копирует файлы между папками.
- Приватным компаниям, где данные нельзя сливать в облако — Holo3.1 работает полностью локально, все скриншоты и действия остаются на вашей машине.
Не обольщайтесь: если у вас GTX 1060 — GGUF Q4 будет еле ползти. Минимальная конфигурация — RTX 3060 12GB для Q4 и RTX 3090 24GB для FP8. NVFP4 пока поддерживается только на картах Blackwell (RTX 5090).
Пример из жизни: вы просите агента «найти в папке все PDF, переименовать, добавив дату, и отправить на почту через веб-клиент». Раньше для этого приходилось писать скрипты с PyAutoGUI, которые ломались при каждом обновлении интерфейса. Holo3.1 смотрит на экран, как человек, и делает то же самое, но без кофе-брейков.
Что дальше
Holo3.1 — не финал. Уже сейчас видно, как агенты превращаются из игрушки в рабочий инструмент. Следующий шаг — объединение в рои, о котором мы писали в статье про рои. К концу 2026 года, скорее всего, мы увидим агентов, работающих на встроенных GPU ноутбуков. И это пугает и восхищает одновременно. Потому что когда AI начинает сам перетаскивать файлы — это уже не просто чат-бот, а партнёр по работе. Или конкурент.