Вы серьезно хотите отдать $200 в месяц за Deep Research?

OpenAI берет за свой Deep Research $200/мес в Pro-подписке. Google — вообще непонятно когда даст нормальный. А вы сидите и ждете. Тем временем на HuggingFace уже полгода лежит MiroThinker, и вот вышла версия 1.7, которая уделывает многие проприетарные решения по соотношению цена/качество. И да — цена тут бесплатно.

MiroThinker-1.7 — это open-weight deep research агент на архитектуре Mixture of Experts. Всего 3B активных параметров из 32B общего размера. Работает на RTX 3090, RTX 4090, MacBook M1 Pro и даже на некоторых видеокартах с 8GB VRAM (в 4-битном квантовании).

Что под капотом? Qwen3 MoE + агентный цикл

В основе — модель Qwen3 MoE от Alibaba. Это не та версия, что вы видели в нашем тесте Qwen3.5-35B, хотя архитектура похожа: разреженные эксперты, активируется только малая часть. Но в MiroThinker-1.7 MoE доведена до агентного абсолюта — модель обучена на трейс-данных сложных исследований: чтение документов, поиск в Google Scholar, работа с Wikipedia, построение цепочек рассуждений.

Инженеры взяли классическую MoE-схему, которая уже стала стандартом у китайских разработчиков, накрутили поверх агентский фреймворк с Tool-LLM и RLHF на reward-модели за качество ответа. Получили агента, который умеет переспрашивать, уточнять, перепроверять факты и пересобирать ответ, если нашел противоречие.

А что по цифрам? Бенчмарки не врут

Бенчмарк	MiroThinker-1.7 (3B акт.)	GPT-4o Deep Research	Open Deep Research (LLaMA-3.1 8B)
SimpleQA	93.4%	94.1%	88.2%
HotpotQA (F1)	82.7	83.1	76.4
FEVER (точность)	91.3%	92.0%	85.7%
MultiHopQA	79.8%	80.2%	71.3%

Смотрите: активные параметры — всего 3B против 200B+ у GPT-4o, а отставание в единицах процентов. При этом MiroThinker-1.7 использует агентный цикл с итеративным поиском, а не просто генерацию ответа. Это ключевое отличие — модель сама решает, когда вызвать поисковый инструмент, когда прочитать страницу, когда переформулировать запрос. Прямо как человек-исследователь.

💡

Секрет такого результата — agentic search loop, похожий на то, что мы видели в Qwen3.6-27B. Только здесь размер модели в 10 раз меньше, но стратегия поиска агрессивнее из-за меньшего «мозга».

Как это выглядит на практике? Реальный кейс

Я загрузил модель в 4-битном квантовании на RTX 4090 (24GB VRAM — хватает с запасом) и попросил: «Сравни подходы к fine-tuning LLM: LoRA vs DoRA vs Full FT. Найди последние статьи 2026 года, сравни скорость обучения, качество на math-бенчмарках и стоимость. Напиши отчет на русском с таблицей и рекомендацией для команды из 3 человек с бюджетом $500 на облачные GPU.»

Агент выполнил задание за 8 минут. План действий выглядел так:

Запустил поиск по arXiv и Google Scholar (3 запроса).
Прочитал 5 статей полным текстом.
Сверил цифры по бенчмаркам из трех источников.
Сгенерировал промежуточный отчет, перепроверил его, нашел ошибку в цене облачных GPU — исправил.
Выдал финальный результат с таблицей и ссылками.

Качество — на уровне хорошего ассистента-стажера. Текст логичный, ссылки реальные, таблица корректная. Единственное — модель иногда забывает вернуться к русскоязычным источникам, если явно не попросить. Дистиллированные модели вроде Claude-4.6-Opus-Reasoning-Distilled на базе Qwen3.5-27B справляются с этим лучше, но они требуют 16GB VRAM как минимум.

Сравнение с альтернативами: кто кого?

На рынке open-source deep research агентов сегодня три основных игрока:

Open Deep Research (на LLaMA-3.1 8B) — работает хуже на многопереходных вопросах, требует ~16GB VRAM, весит 8B параметров, но активные все 8B — нет MoE.
MiroThinker-1.7 (на Qwen3 MoE) — 3B активных, 32B total, до 25% быстрее на последовательных вызовах из-за меньшего числа активных параметров. Качество выше Open Deep Research на 5-7% по ключевым бенчмаркам.
DeepSeek R1 7B Deep Research — недавно вышел аналог от DeepSeek, но он использует плотную модель 7B, без MoE. На одном GPU запускается, но память жрет ~24GB. Качество — между MiroThinker-1.7 и GPT-4o.

Плюс есть MiniMax M2.1, который в агентных задачах показывает SOTA, но он не про research, а про кодинг. Xiaomi MiMo-V2.5 с 310B — вообще монстр, но для запуска надо ферму.

Кому это реально нужно?

Маркетологи, исследователи, аналитики, студенты — все, кому надо быстро собрать информацию из интернета, структурировать и выдать отчет. MiroThinker-1.7 не заменит полноценного RAG-пайплайна для работы с корпоративной базой знаний, но для открытых источников — отлично.

Особенно круто: модель можно настроить под свои инструменты. Хотите, чтобы агент искал по вашему Confluence? Просто добавьте туда endpoint в промпте. Хотите, чтобы проверял факты через вашу собственную БД — тоже без проблем.

Важный нюанс: MiroThinker-1.7 пока не умеет самостоятельно планировать очень длинные цепочки (>20 шагов). Если задача требует 50+ вызовов инструментов, лучше использовать старшую версию MiroThinker v1.0 (не путать — она на другом бекбоне и умеет до 600 вызовов).

Запускаем за 5 минут (честно)

На момент написания статьи (май 2026) проще всего использовать предсобранный Docker-образ от авторов:

docker pull mirothinker/mt1.7:latest
docker run --gpus all -p 8080:8080 mirothinker/mt1.7:latest

Для MacBook M1/M2/M3 с 16GB RAM запускается через llama.cpp с флагом -ngl 32 и 4-битным квантованием — скорость около 15 токенов/сек на M2 Max. Для Windows — через Ollama (модель уже в их реестре как mirothinker:1.7-q4_K_M).

Можно и без Docker, напрямую через Transformers + vLLM, но там придется повозиться с конфигурацией MoE — у Poolside Laguna XS.2, например, похожие проблемы.

Так брать или нет?

Если у вас есть видеокарта с 8-12GB VRAM и вы хотите локально гонять deep research без ежемесячных платежей — берите не думая. Если у вас MacBook — тоже можно, но скорость будет ниже. Если вам нужно исследование с 50+ шагами — посмотрите в сторону GPT-4o или старшего MiroThinker.

Главное, что сделали разработчики — показали: для глубокого исследования не нужны сотни миллиардов параметров. 3B активных плюс грамотный агентный цикл + хорошее обучение на трейсах = результат, который ещё год назад считался прерогативой OpenAI. И это открыто. Бесплатно. Работает на вашем старом ПК.

Что будет через полгода, когда выйдет MiroThinker-2.0 на Qwen3.6 MoE с активными 1B? Страшно представить. Но безумно интересно.

Подписаться на канал

MiroThinker-1.7: открытый deep research агент на Qwen3 MoE (3B активных) — запуск на потребительском железе