VibeThinker-3B: маленькая модель с reasoning уровня DeepSeek V3 | AiManual
AiManual Logo Ai / Manual.
16 Июн 2026 Инструмент

VibeThinker-3B: компактная модель с рассуждениями уровня DeepSeek V3 – архитектура, результаты и открытый код

Обзор VibeThinker-3B — открытой 3B-модели, которая на AIME26 догоняет DeepSeek V3 и V4. Архитектура, бенчмарки, примеры использования и как запустить локально.

Реклама
partv2

3 миллиарда параметров против гигантов — что за зверь?

Представьте: 3 миллиарда параметров. Это примерно как Qwen2.5-3B. Но на бенчмарке AIME26 (American Invitational Mathematics Examination, версия 2026 года) эта кроха уделала DeepSeek V3 с 671B. Звучит как сюрреализм? Нет, это VibeThinker-3B.

Авторы выложили модель на Hugging Face и GitHub с открытыми весами (Apache 2.0) — можно скачать и запустить на обычной видеокарте с 8GB VRAM. Никаких облачных API, никаких $50 за миллион токенов. Только железо и цепочки рассуждений.

Архитектура: как упаковать reasoning в 3B?

Детали архитектуры раскрыты не полностью — код открыт, но в статье авторы стеснительно пишут "на основе Qwen2.5-3B”. Однако ключевая фишка не в размере, а в тренировке. VibeThinker обучали на верифицируемых задачах (математика, логика, код) через rejection sampling и supervised fine-tuning на цепочках мыслей.

По сути, это тот же подход, что и у DeepSeek-R1, но с фокусом на компактность. Модель не учится креативить — она учится проверять каждый шаг рассуждения. Внутренний "совет экспертов", описанный в статье Society of Thought, здесь реализован через механизм само-верификации: модель генерирует несколько гипотез, внутренне их сравнивает и выбирает лучшую.

При этом VibeThinker использует Grouped Query Attention и RoPE-позиционирование — стандартный набор для современных 3B-моделей. Никаких MoE, никаких экспертов — просто умное обучение.

Цифры не врут: бенчмарки

МодельAIME26 (Pass@1)MATH-500GSM8KHumanEval
VibeThinker-3B61%89%94%68%
DeepSeek V3 (671B)63%92%96%83%
DeepSeek V4 Flash (1.6T spread)71%95%97%89%
Qwen3.5-27B57%87%92%74%

Да, на AIME26 VibeThinker проигрывает DeepSeek V4 Flash всего 10%, но имеет в 500 раз меньше активных параметров. При этом на MATH-500 и GSM8K разрыв минимален. HumanEval — код — слабое место, но для 3B это ожидаемо.

Сравнение с Qwen3.5-27B показывает, что маленькая модель может быть эффективнее на математике, хотя уступает в кодинге. А вот DeepSeek V3.2 с 7B — прямой конкурент, но VibeThinker бьет его на 8% на AIME при вдвое меньших параметрах.

Как это работает на практике?

Загружаете чекпоинт (GGUF или PyTorch), даёте промпт вроде: "Реши уравнение 3x + 7 = 22. Объясни каждый шаг.". Модель выдаёт цепочку рассуждений — шаг за шагом, с само-проверкой. В отличие от Liquid AI LFM2.5-1.2B-Thinking, VibeThinker справляется с задачами уровня AIME, которые требуют многошаговых рассуждений.

Локально запустить можно через Ollama или vLLM. Требования — 6-8GB VRAM (FP16), или 4GB в 4-битном квантовании. Скорость инференса — около 30 токенов/сек на RTX 4090. Этого хватает для диалогов и учебных задач.

Сравнение с альтернативами

  • DeepSeek V3.2 (7B) — более сбалансирован, но хуже на математике. Если вам нужен код + рассуждения, берите DeepSeek.
  • Qwen3.5-27B — хорош для STEM-задач, но требует 16GB VRAM. VibeThinker дешевле и быстрее.
  • Cohere North Mini Code 1.0 — 30B MoE с A3B, специализирован на коде, но не на логике.
  • Liquid AI LFM2.5-1.2B-Thinking — ещё меньше, но AIME берёт только 35% против 61% у VibeThinker.

Если вы ищете модель, которая "думает" как DeepSeek V4, но помещается в бюджетную видеокарту — VibeThinker ваш выбор. В отличие от флагманов, тут нет "парадокса лидерства": модель показывает результат честно, без приписывания.

Кому это нужно?

  • Студентам и преподавателям — для генерации решений олимпиадных задач.
  • Исследователям — для экспериментов с reasoning: веса открыты, можно дообучать.
  • Стартапам — им не нужны облачные API с high-latency.
  • Энтузиастам — запустить на старом ноутбуке и получить ИИ уровня DeepSeek V3? Легко.

Минус: модель бесполезна для генерации креатива — стихи, сценарии, диалоги получаются плоскими. Зато верификация фактов и математика — её стихия.

Инсайт от авторов (подсмотрели в GitHub Issues): они использовали синтетические данные, сгенерированные ThreadWeaver — моделью, которая учится параллельно ветвить мысли. VibeThinker-3B — это, по сути, дистиллят ThreadWeaver в компактной форме.

Совет: не пытайтесь заставить VibeThinker генерировать код для GUI или писать сказки — он будет тупить и выдавать водянистые цепочки. Используйте его как калькулятор для рассуждений: дайте задачу с верифицируемым ответом — и получите чёткое решение.

Прогноз: через полгода такие 3B-модели станут стандартом для edge-устройств. VibeThinker проложил дорогу, но конкуренция уже разгорается. Qwen, DeepSeek, Microsoft — все готовят свои версии. Главный вопрос: сможет ли Community поддерживать модель, когда разработчики уйдут в следующий проект?

Подписаться на канал