Сначала было слово, потом RL

Пока крупные вендоры продают deep research как премиум-функцию за 200 долларов в месяц, группа из Shanghai Jiao Tong University тихо выложила на Hugging Face модель, которая делает то же самое — но без грабительской подписки и без многомесячного обучения с подкреплением. Встречайте OpenSeeker-v2.

Это не очередной RAG с прикрученным поиском. Это полноценный агент-исследователь, который умеет самостоятельно декомпозировать вопрос, искать информацию в интернете, читать страницы, агрегировать данные и выдавать связный отчет. И всё это на базе обычного supervised fine-tuning на 10 600 автоматически сгенерированных примерах. Никакого RL, никаких PPO-танцев с бубном.

Ключевой инсайт: авторы показали, что качественный датасет трасс (search + reasoning) способен заменить сложные RL-алгоритмы. Это удешевляет разработку deep research агентов на порядок.

Как у них получилось срезать угол?

Обычный подход к созданию deep research агента — взять большую языковую модель, научить её вызывать инструменты, а потом долго и мучительно гонять через reinforcement learning, выписывая награды за каждый удачный шаг (как это делают, например, в закрытых системах от OpenAI и Google). OpenSeeker-v2 поступил иначе.

Они взяли сильную модель (скорее всего DeepSeek или Qwen2.5 72B) и скормили ей 10 600 вопросов. Каждый вопрос модель решала в автоматическом режиме: генерировала трассу поиска, читала документы, писала ответ. Получился датаст вопрос → трасса → ответ. Затем этим датасетом дообучили меньшую модель (7B-параметров) обычным supervised fine-tuning — и вуаля.

«Мы не используем RL. Нам достаточно 10K примеров, чтобы модель выучила паттерны исследовательского поведения» — из статьи OpenSeeker-v2.

Звучит как чудо, но работает. На бенчмарках агент показывает результаты, сопоставимые с GPT-4.1 Deep Research, а в некоторых сценариях даже обходит его по полноте охвата источников. При этом модель весит как стандартная 7B — запускается на одной видеокарте с 24 ГБ VRAM.

OpenSeeker-v2 против «монстров»

Давайте честно: все эти Deep Research от OpenAI и Gemini — чёрные ящики. Вы платите, получаете результат, но не знаете, как он получился. OpenSeeker-v2 — открытый код, открытые веса, открытый датасет. Вы можете проверить каждый шаг, модифицировать модель, дообучить под свою предметную область.

Параметр	OpenSeeker-v2 (7B)	GPT-4.1 Deep Research	Google Gemini Deep Research	OpenResearcher (альтернатива)
Цена	0$ (self-host)	~200$/мес	~20$/мес (ограничения)	0$ (self-host)
Открытость	Полная	Закрыто	Закрыто	Полная
Размер	7B	~1T (оценка)	Неизвестно	7B
Метод обучения	SFT без RL	RL + SFT	RL + SFT	SFT + RL (гибрид)
Качество отчётов	~90% GPT-4.1	Эталон	~95%	~85%

Сравнение с OpenResearcher — ближайшим открытым конкурентом — показывает, что OpenSeeker-v2 выигрывает за счёт более чистого датасета и отказа от RL. На практике это означает меньше галлюцинаций и более структурированные ответы.

Ставим и щупаем: первые 5 минут с OpenSeeker-v2

Всё, что нужно — Python 3.10+, CUDA 12.1 и хотя бы 16 ГБ VRAM (рекомендуется 24). Модель доступна на Hugging Face как ShanghaiJiaoTong/OpenSeeker-v2-7B.

Базовый инференс через библиотеку transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "ShanghaiJiaoTong/OpenSeeker-v2-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# Формат промпта: системное сообщение + запрос пользователя
messages = [
    {"role": "system", "content": "You are OpenSeeker, a research assistant. You search the web, read sources, and write structured reports."},
    {"role": "user", "content": "Compare the RLHF approaches of OpenAI and Anthropic in 2026"}
]

inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    inputs,
    max_new_tokens=4096,
    temperature=0.6,
    do_sample=True
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Важный момент: агент сам решает, когда делать поиск. Если вопрос простой — ответит без вызова инструментов. Если сложный — начнёт генерировать запросы к поисковой системе (через API, которое нужно настроить отдельно). По умолчанию модель использует Bing Search API или Google Custom Search, но можно подставить любой поисковый бэкенд.

⚠️ В текущей версии 2.0 поиск реализован через внешний API. Команда обещает встроить DuckDuckGo в следующем релизе — следите за обновлениями на Hugging Face.

Под капотом: как агент строит исследование

Архитектура OpenSeeker-v2 — классический цикл «мысль-действие-наблюдение» (ReAct). Модель обучена генерировать специальные токены:

<search> — сформулировать запрос к поисковику
<read> — извлечь содержимое конкретной страницы
<think> — внутренний монолог для анализа собранного
<answer> — финальный ответ

Это напоминает механизм, описанный в статье про DeepSeek-V4, где миллионный контекст обрабатывается через KV cache. OpenSeeker-v2 тоже оперирует длинными последовательностями (до 32K токенов за один проход), но без таких экстремальных оптимизаций — всё укладывается в стандартный трансформер.

Качество итогового отчёта напрямую зависит от того, насколько хорошо модель умеет выбирать релевантные источники. В датасете 10 600 трасс — это примерно 3 миллиона шагов «поиск-чтение». Модель насмотрелась на правильные паттерны и теперь воспроизводит их на новых запросах.

Кому это реально нужно (а кому нет)

OpenSeeker-v2 — идеальный выбор для:

Исследователей, которые хотят автоматизировать обзор литературы и сбор фактов.
Разработчиков AI-продуктов, которым нужен прозрачный агент с возможностью дообучения под свою доменную область.
Журналистов и аналитиков, уставших от ручного гугления и копипаста.

Но не ждите чуда. Модель 7B не сравнится по глубине анализа с GPT-4.1 на сложных междисциплинарных вопросах. Если нужно исследование по квантовой химии с интегралом по траекториям — лучше заплатить за проприетарный сервис. А если нужно собрать конкурентный анализ рынка или написать обзор трендов — OpenSeeker-v2 справится на твёрдую пятёрку.

💡

Совет: не используйте агента для принятия жизненно важных решений на основе одного отчёта. Всегда перепроверяйте ключевые факты — особенно те, что выглядят слишком идеально.

Кстати, если вы хотите увидеть, как deep research агенты работают в корпоративной среде — почитайте кейс Яндекса. Там другой масштаб, но основные принципы те же.

Что дальше?

Авторы OpenSeeker-v2 уже намекнули, что следующая версия будет использовать смешанное обучение с небольшим количеством RL для улучшения multi-hop рассуждений. Но даже текущий релиз показывает: открытые модели догоняют проприетарные быстрее, чем мы думали. И делают это без миллионных бюджетов на RL-инфраструктуру.

Если вы до сих пор считали, что deep research — это удел гигантов вроде OpenAI и Google, установите OpenSeeker-v2 сегодня. Удивитесь, насколько много может маленькая открытая модель, если её правильно научить.

Подписаться на канал

OpenSeeker-v2: открытый Deep Research агент, который выучили на 10 000 примерах без RL — и это работает