Сначала было слово, потом RL
Пока крупные вендоры продают deep research как премиум-функцию за 200 долларов в месяц, группа из Shanghai Jiao Tong University тихо выложила на Hugging Face модель, которая делает то же самое — но без грабительской подписки и без многомесячного обучения с подкреплением. Встречайте OpenSeeker-v2.
Это не очередной RAG с прикрученным поиском. Это полноценный агент-исследователь, который умеет самостоятельно декомпозировать вопрос, искать информацию в интернете, читать страницы, агрегировать данные и выдавать связный отчет. И всё это на базе обычного supervised fine-tuning на 10 600 автоматически сгенерированных примерах. Никакого RL, никаких PPO-танцев с бубном.
Ключевой инсайт: авторы показали, что качественный датасет трасс (search + reasoning) способен заменить сложные RL-алгоритмы. Это удешевляет разработку deep research агентов на порядок.
Как у них получилось срезать угол?
Обычный подход к созданию deep research агента — взять большую языковую модель, научить её вызывать инструменты, а потом долго и мучительно гонять через reinforcement learning, выписывая награды за каждый удачный шаг (как это делают, например, в закрытых системах от OpenAI и Google). OpenSeeker-v2 поступил иначе.
Они взяли сильную модель (скорее всего DeepSeek или Qwen2.5 72B) и скормили ей 10 600 вопросов. Каждый вопрос модель решала в автоматическом режиме: генерировала трассу поиска, читала документы, писала ответ. Получился датаст вопрос → трасса → ответ. Затем этим датасетом дообучили меньшую модель (7B-параметров) обычным supervised fine-tuning — и вуаля.
«Мы не используем RL. Нам достаточно 10K примеров, чтобы модель выучила паттерны исследовательского поведения» — из статьи OpenSeeker-v2.
Звучит как чудо, но работает. На бенчмарках агент показывает результаты, сопоставимые с GPT-4.1 Deep Research, а в некоторых сценариях даже обходит его по полноте охвата источников. При этом модель весит как стандартная 7B — запускается на одной видеокарте с 24 ГБ VRAM.
OpenSeeker-v2 против «монстров»
Давайте честно: все эти Deep Research от OpenAI и Gemini — чёрные ящики. Вы платите, получаете результат, но не знаете, как он получился. OpenSeeker-v2 — открытый код, открытые веса, открытый датасет. Вы можете проверить каждый шаг, модифицировать модель, дообучить под свою предметную область.
| Параметр | OpenSeeker-v2 (7B) | GPT-4.1 Deep Research | Google Gemini Deep Research | OpenResearcher (альтернатива) |
|---|---|---|---|---|
| Цена | 0$ (self-host) | ~200$/мес | ~20$/мес (ограничения) | 0$ (self-host) |
| Открытость | Полная | Закрыто | Закрыто | Полная |
| Размер | 7B | ~1T (оценка) | Неизвестно | 7B |
| Метод обучения | SFT без RL | RL + SFT | RL + SFT | SFT + RL (гибрид) |
| Качество отчётов | ~90% GPT-4.1 | Эталон | ~95% | ~85% |
Сравнение с OpenResearcher — ближайшим открытым конкурентом — показывает, что OpenSeeker-v2 выигрывает за счёт более чистого датасета и отказа от RL. На практике это означает меньше галлюцинаций и более структурированные ответы.
Ставим и щупаем: первые 5 минут с OpenSeeker-v2
Всё, что нужно — Python 3.10+, CUDA 12.1 и хотя бы 16 ГБ VRAM (рекомендуется 24). Модель доступна на Hugging Face как ShanghaiJiaoTong/OpenSeeker-v2-7B.
Базовый инференс через библиотеку transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "ShanghaiJiaoTong/OpenSeeker-v2-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# Формат промпта: системное сообщение + запрос пользователя
messages = [
{"role": "system", "content": "You are OpenSeeker, a research assistant. You search the web, read sources, and write structured reports."},
{"role": "user", "content": "Compare the RLHF approaches of OpenAI and Anthropic in 2026"}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
outputs = model.generate(
inputs,
max_new_tokens=4096,
temperature=0.6,
do_sample=True
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))Важный момент: агент сам решает, когда делать поиск. Если вопрос простой — ответит без вызова инструментов. Если сложный — начнёт генерировать запросы к поисковой системе (через API, которое нужно настроить отдельно). По умолчанию модель использует Bing Search API или Google Custom Search, но можно подставить любой поисковый бэкенд.
⚠️ В текущей версии 2.0 поиск реализован через внешний API. Команда обещает встроить DuckDuckGo в следующем релизе — следите за обновлениями на Hugging Face.
Под капотом: как агент строит исследование
Архитектура OpenSeeker-v2 — классический цикл «мысль-действие-наблюдение» (ReAct). Модель обучена генерировать специальные токены:
<search>— сформулировать запрос к поисковику<read>— извлечь содержимое конкретной страницы<think>— внутренний монолог для анализа собранного<answer>— финальный ответ
Это напоминает механизм, описанный в статье про DeepSeek-V4, где миллионный контекст обрабатывается через KV cache. OpenSeeker-v2 тоже оперирует длинными последовательностями (до 32K токенов за один проход), но без таких экстремальных оптимизаций — всё укладывается в стандартный трансформер.
Качество итогового отчёта напрямую зависит от того, насколько хорошо модель умеет выбирать релевантные источники. В датасете 10 600 трасс — это примерно 3 миллиона шагов «поиск-чтение». Модель насмотрелась на правильные паттерны и теперь воспроизводит их на новых запросах.
Кому это реально нужно (а кому нет)
OpenSeeker-v2 — идеальный выбор для:
- Исследователей, которые хотят автоматизировать обзор литературы и сбор фактов.
- Разработчиков AI-продуктов, которым нужен прозрачный агент с возможностью дообучения под свою доменную область.
- Журналистов и аналитиков, уставших от ручного гугления и копипаста.
Но не ждите чуда. Модель 7B не сравнится по глубине анализа с GPT-4.1 на сложных междисциплинарных вопросах. Если нужно исследование по квантовой химии с интегралом по траекториям — лучше заплатить за проприетарный сервис. А если нужно собрать конкурентный анализ рынка или написать обзор трендов — OpenSeeker-v2 справится на твёрдую пятёрку.
Кстати, если вы хотите увидеть, как deep research агенты работают в корпоративной среде — почитайте кейс Яндекса. Там другой масштаб, но основные принципы те же.
Что дальше?
Авторы OpenSeeker-v2 уже намекнули, что следующая версия будет использовать смешанное обучение с небольшим количеством RL для улучшения multi-hop рассуждений. Но даже текущий релиз показывает: открытые модели догоняют проприетарные быстрее, чем мы думали. И делают это без миллионных бюджетов на RL-инфраструктуру.
Если вы до сих пор считали, что deep research — это удел гигантов вроде OpenAI и Google, установите OpenSeeker-v2 сегодня. Удивитесь, насколько много может маленькая открытая модель, если её правильно научить.