3 миллиарда параметров против гигантов — что за зверь?

Представьте: 3 миллиарда параметров. Это примерно как Qwen2.5-3B. Но на бенчмарке AIME26 (American Invitational Mathematics Examination, версия 2026 года) эта кроха уделала DeepSeek V3 с 671B. Звучит как сюрреализм? Нет, это VibeThinker-3B.

Авторы выложили модель на Hugging Face и GitHub с открытыми весами (Apache 2.0) — можно скачать и запустить на обычной видеокарте с 8GB VRAM. Никаких облачных API, никаких $50 за миллион токенов. Только железо и цепочки рассуждений.

Архитектура: как упаковать reasoning в 3B?

Детали архитектуры раскрыты не полностью — код открыт, но в статье авторы стеснительно пишут "на основе Qwen2.5-3B”. Однако ключевая фишка не в размере, а в тренировке. VibeThinker обучали на верифицируемых задачах (математика, логика, код) через rejection sampling и supervised fine-tuning на цепочках мыслей.

По сути, это тот же подход, что и у DeepSeek-R1, но с фокусом на компактность. Модель не учится креативить — она учится проверять каждый шаг рассуждения. Внутренний "совет экспертов", описанный в статье Society of Thought, здесь реализован через механизм само-верификации: модель генерирует несколько гипотез, внутренне их сравнивает и выбирает лучшую.

При этом VibeThinker использует Grouped Query Attention и RoPE-позиционирование — стандартный набор для современных 3B-моделей. Никаких MoE, никаких экспертов — просто умное обучение.

Цифры не врут: бенчмарки

Модель	AIME26 (Pass@1)	MATH-500	GSM8K	HumanEval
VibeThinker-3B	61%	89%	94%	68%
DeepSeek V3 (671B)	63%	92%	96%	83%
DeepSeek V4 Flash (1.6T spread)	71%	95%	97%	89%
Qwen3.5-27B	57%	87%	92%	74%

Да, на AIME26 VibeThinker проигрывает DeepSeek V4 Flash всего 10%, но имеет в 500 раз меньше активных параметров. При этом на MATH-500 и GSM8K разрыв минимален. HumanEval — код — слабое место, но для 3B это ожидаемо.

Сравнение с Qwen3.5-27B показывает, что маленькая модель может быть эффективнее на математике, хотя уступает в кодинге. А вот DeepSeek V3.2 с 7B — прямой конкурент, но VibeThinker бьет его на 8% на AIME при вдвое меньших параметрах.

Как это работает на практике?

Загружаете чекпоинт (GGUF или PyTorch), даёте промпт вроде: "Реши уравнение 3x + 7 = 22. Объясни каждый шаг.". Модель выдаёт цепочку рассуждений — шаг за шагом, с само-проверкой. В отличие от Liquid AI LFM2.5-1.2B-Thinking, VibeThinker справляется с задачами уровня AIME, которые требуют многошаговых рассуждений.

Локально запустить можно через Ollama или vLLM. Требования — 6-8GB VRAM (FP16), или 4GB в 4-битном квантовании. Скорость инференса — около 30 токенов/сек на RTX 4090. Этого хватает для диалогов и учебных задач.

Сравнение с альтернативами

DeepSeek V3.2 (7B) — более сбалансирован, но хуже на математике. Если вам нужен код + рассуждения, берите DeepSeek.
Qwen3.5-27B — хорош для STEM-задач, но требует 16GB VRAM. VibeThinker дешевле и быстрее.
Cohere North Mini Code 1.0 — 30B MoE с A3B, специализирован на коде, но не на логике.
Liquid AI LFM2.5-1.2B-Thinking — ещё меньше, но AIME берёт только 35% против 61% у VibeThinker.

Если вы ищете модель, которая "думает" как DeepSeek V4, но помещается в бюджетную видеокарту — VibeThinker ваш выбор. В отличие от флагманов, тут нет "парадокса лидерства": модель показывает результат честно, без приписывания.

Кому это нужно?

Студентам и преподавателям — для генерации решений олимпиадных задач.
Исследователям — для экспериментов с reasoning: веса открыты, можно дообучать.
Стартапам — им не нужны облачные API с high-latency.
Энтузиастам — запустить на старом ноутбуке и получить ИИ уровня DeepSeek V3? Легко.

Минус: модель бесполезна для генерации креатива — стихи, сценарии, диалоги получаются плоскими. Зато верификация фактов и математика — её стихия.

Инсайт от авторов (подсмотрели в GitHub Issues): они использовали синтетические данные, сгенерированные ThreadWeaver — моделью, которая учится параллельно ветвить мысли. VibeThinker-3B — это, по сути, дистиллят ThreadWeaver в компактной форме.

Совет: не пытайтесь заставить VibeThinker генерировать код для GUI или писать сказки — он будет тупить и выдавать водянистые цепочки. Используйте его как калькулятор для рассуждений: дайте задачу с верифицируемым ответом — и получите чёткое решение.

Прогноз: через полгода такие 3B-модели станут стандартом для edge-устройств. VibeThinker проложил дорогу, но конкуренция уже разгорается. Qwen, DeepSeek, Microsoft — все готовят свои версии. Главный вопрос: сможет ли Community поддерживать модель, когда разработчики уйдут в следующий проект?

Подписаться на канал

VibeThinker-3B: компактная модель с рассуждениями уровня DeepSeek V3 – архитектура, результаты и открытый код