Представьте: вы — аспирант, которому нужно придумать новую гипотезу для эксперимента. Вы читаете сто статей, делаете заметки, тупите, пьете кофе. А потом появляется MOOSE-Star — 7B модель, которая сделала это за вас. И не просто сделала — её работу приняли на ICML 2026.

🦌

MOOSE расшифровывается как Model Of Open Scientific Exploration. Звезда в названии намекает на пост-тренинг: модель не просто предсказывает следующий токен, а учится генерировать новые идеи на основе статей. Звучит как фантастика? Добро пожаловать в 2026.

Что за зверь и где его найти?

MOOSE-Star — это 7B модель, построенная на базе одного из современных open-source языковых моделей (под капотом — архитектура, близкая к Llama 3 или Qwen 2.5, но авторы не раскрывают точную базу). Главная фишка: она обучена на 108 000 научных статей из разных областей — от биоинформатики до физики конденсированного состояния. Но не просто обучена — модель подвергли специальному пост-тренингу, чтобы она выдавала гипотезы, а не пересказы.

Весь датасет, веса и код — на HuggingFace. Редкий случай, когда исследователи не прячут данные за семью замками, а выкладывают всё честно. Это вам не закрытые датасеты, про которые сообщество AI спорит до хрипоты.

Как она выдумывает гипотезы?

Авторы взяли 108K статей, разбили их на пары «статья A — статья B», где B ссылается на A или логически продолжает. Затем научили модель заполнять пропуски: дайте ей статью A, и она сгенерирует текст, который выглядит как продолжение — но не пересказ, а новая гипотеза. Это похоже на то, как OpenSeeker учился на 10K примерах без RL, только масштаб задач совсем другой.

На вход модель принимает аннотацию или полный текст статьи (до 4096 токенов), а на выходе — несколько вариантов гипотез с оценкой уверенности. Никаких галлюцинаций про «лечение всего на свете»: MOOSE-Star обучена отличать обоснованные догадки от откровенного бреда.

1 Пример из жизни

Допустим, вы работаете с данными с Большого адронного коллайдера и ищете аномалии. Даёте MOOSE-Star статью про поиск тёмной материи через моонные детекторы. Модель генерирует гипотезу: «А что, если мы посмотрим на корреляцию между аномальными событиями и временем суток? Может, это влияние солнечной активности?». Звучит банально? Возможно. Но такая гипотеза уже проверяема! Это не магия, а системный перебор связей, которые человек мог пропустить. Тем более что нейросети на БАК уже ловят призраки новой физики — так почему бы не дать им задачу формулировать гипотезы для проверки?

Как оно выглядит в реальности?

Модель принимает текст через API или локально. Пример промпта для генерации гипотезы:

curl -X POST https://api.moose-star.dev/generate \
  -H "Content-Type: application/json" \
  -d '{
    "input_text": "Recent studies show that CRISPR-Cas9 efficiency depends on chromatin accessibility. However, the role of histone modifications in this process remains unclear.",
    "num_hypotheses": 3,
    "temperature": 0.7
  }'

На выходе — JSON с тремя вариантами:

[
  {
    "hypothesis": "H3K4me3 enrichment at target sites may increase CRISPR-Cas9 editing efficiency by recruiting chromatin remodelers.",
    "confidence": 0.82,
    "supporting_evidence": "Correlation observed in 12 out of 15 tested loci in mouse embryonic stem cells (Smith et al., 2025)."
  },
  ...
]

Внутренний механизм — не чёрный ящик: авторы предоставляют attention map, показывающую, на какие части исходной статьи модель опиралась. Это важно для научной этики: поиск неизвестных неизвестных не должен превращаться в шаманство.

Сравнение с тем, что было раньше

До MOOSE-Star научные LLM (вроде Galactica, SciBERT, BioGPT) умели пересказывать, реферировать, отвечать на вопросы — но не генерировать гипотезы. Если вы просили Galactica придумать новую идею, она выдавала гладкий текст, который звучал научно, но по факту был плагиатом или бессмыслицей.

Модель	Генерация гипотез	Датасет открыт	Размер	ICML 2026
MOOSE-Star	Да (основная задача)	Да (108K статей)	7B	Да
Galactica	Частично (пересказ)	Нет	120B	Нет
SciBERT	Нет (только классификация)	Да (Semantic Scholar)	110M	Нет
OpenSeeker-v2	Для deep research	Да (10k примеров)	~7B	Нет

Главное преимущество MOOSE-Star — специализация. Она не пытается быть универсальным помощником, а делает одну вещь, но хорошо. Это как сравнивать швейцарский нож и скальпель нейрохирурга.

Кому это реально нужно?

Список короткий, но точный:

Научные группы, которые хотят ускорить фазу генерации идей. Модель не заменит эксперимент, но сэкономит недели на чтении литературы.
ML-инженеры, строящие пайплайны автоматического научного открытия. MOOSE-Star можно использовать как компонент в системе, похожей на 20-30B MoE для tool calling, только для науки.
Библиотеки датасетов: сам датасет из 108K статей — отличная основа для обучения других моделей. Например, 50k датасетов CoT-рассуждений показали, как много можно выжать из качественных данных.

Есть и скрытая аудитория — те, кто занимается мета-наукой: как мы вообще придумываем новые знания? MOOSE-Star — это не просто инструмент, а эксперимент по формализации креативности. И да, собрать датасет и обучить LLM с нуля на подобных задачах теперь гораздо проще, когда есть готовые рецепты.

Где собака зарыта?

Не всё так радужно. Во-первых, 7B параметров — это скромно. Для сложных междисциплинарных гипотез модель часто выдает тривиальные вещи. Во-вторых, датасет хоть и открыт, но состоит в основном из статей на английском и с сильным перекосом в биомедицину. Физики высоких энергий и математики могут остаться за бортом. В-третьих, оценка гипотез — это всё ещё ручная работа: модель не умеет проверять их на практике (логично, но ограничивает автоматизацию).

И самое важное: модель не делает научное открытие сама. Она генерирует правдоподобные направления для поиска. Как сказал один из авторов: «MOOSE-Star — это не лаборант, а советчик, который никогда не спит и не просит зарплату». Звучит цинично, но в мире, где квантование MoE-моделей с KLD-метриками становится рутиной, такие инструменты будут только умножаться.

Не советую так делать: запускать MOOSE-Star в продакшен без валидации экспертом. Гипотеза может быть ошибочной, а в науке ложный след стоит дорого. Всегда проверяйте «confindence score» attention map.

И последний нюанс: модель потребляет около 14 GB VRAM в FP16, что делает её доступной для энтузиастов с одной видеокартой уровня RTX 3090. Для сравнения, DeepSeek с контекстом 1 млн токенов требует совсем других ресурсов.

Вердикт (не заключение, а мысль на будущее)

MOOSE-Star — это не серебряная пуля, а первый кирпич в стене. Он лежит кривовато, но задаёт направление. Если через три года каждая научная лаборатория будет иметь такого ассистента, это изменит скорость открытий. Причём не факт, что в лучшую сторону: количество мусорных гипотез тоже вырастет. Но именно поэтому открытые датасеты — это страховка от монополии на know-how.

Кстати, о датасетах: разработчики обещают расширить MOOSE-Star до мультиязычности и добавить тьюториал по дообучению на собственных статьях. Следите за HuggingFace коллекцией — там уже лежит baseline для тех, кто хочет попробовать свои силы. Эстетический пак Moonworks показал, что даже про «красоту» данных можно договориться — так почему бы не договориться о научной креативности?

Подписаться на канал

MOOSE-Star: 7B модель, которая выдумывает научные гипотезы быстрее аспиранта