3 миллиарда параметров против гигантов — что за зверь?
Представьте: 3 миллиарда параметров. Это примерно как Qwen2.5-3B. Но на бенчмарке AIME26 (American Invitational Mathematics Examination, версия 2026 года) эта кроха уделала DeepSeek V3 с 671B. Звучит как сюрреализм? Нет, это VibeThinker-3B.
Авторы выложили модель на Hugging Face и GitHub с открытыми весами (Apache 2.0) — можно скачать и запустить на обычной видеокарте с 8GB VRAM. Никаких облачных API, никаких $50 за миллион токенов. Только железо и цепочки рассуждений.
Архитектура: как упаковать reasoning в 3B?
Детали архитектуры раскрыты не полностью — код открыт, но в статье авторы стеснительно пишут "на основе Qwen2.5-3B”. Однако ключевая фишка не в размере, а в тренировке. VibeThinker обучали на верифицируемых задачах (математика, логика, код) через rejection sampling и supervised fine-tuning на цепочках мыслей.
По сути, это тот же подход, что и у DeepSeek-R1, но с фокусом на компактность. Модель не учится креативить — она учится проверять каждый шаг рассуждения. Внутренний "совет экспертов", описанный в статье Society of Thought, здесь реализован через механизм само-верификации: модель генерирует несколько гипотез, внутренне их сравнивает и выбирает лучшую.
При этом VibeThinker использует Grouped Query Attention и RoPE-позиционирование — стандартный набор для современных 3B-моделей. Никаких MoE, никаких экспертов — просто умное обучение.
Цифры не врут: бенчмарки
| Модель | AIME26 (Pass@1) | MATH-500 | GSM8K | HumanEval |
|---|---|---|---|---|
| VibeThinker-3B | 61% | 89% | 94% | 68% |
| DeepSeek V3 (671B) | 63% | 92% | 96% | 83% |
| DeepSeek V4 Flash (1.6T spread) | 71% | 95% | 97% | 89% |
| Qwen3.5-27B | 57% | 87% | 92% | 74% |
Да, на AIME26 VibeThinker проигрывает DeepSeek V4 Flash всего 10%, но имеет в 500 раз меньше активных параметров. При этом на MATH-500 и GSM8K разрыв минимален. HumanEval — код — слабое место, но для 3B это ожидаемо.
Сравнение с Qwen3.5-27B показывает, что маленькая модель может быть эффективнее на математике, хотя уступает в кодинге. А вот DeepSeek V3.2 с 7B — прямой конкурент, но VibeThinker бьет его на 8% на AIME при вдвое меньших параметрах.
Как это работает на практике?
Загружаете чекпоинт (GGUF или PyTorch), даёте промпт вроде: "Реши уравнение 3x + 7 = 22. Объясни каждый шаг.". Модель выдаёт цепочку рассуждений — шаг за шагом, с само-проверкой. В отличие от Liquid AI LFM2.5-1.2B-Thinking, VibeThinker справляется с задачами уровня AIME, которые требуют многошаговых рассуждений.
Локально запустить можно через Ollama или vLLM. Требования — 6-8GB VRAM (FP16), или 4GB в 4-битном квантовании. Скорость инференса — около 30 токенов/сек на RTX 4090. Этого хватает для диалогов и учебных задач.
Сравнение с альтернативами
- DeepSeek V3.2 (7B) — более сбалансирован, но хуже на математике. Если вам нужен код + рассуждения, берите DeepSeek.
- Qwen3.5-27B — хорош для STEM-задач, но требует 16GB VRAM. VibeThinker дешевле и быстрее.
- Cohere North Mini Code 1.0 — 30B MoE с A3B, специализирован на коде, но не на логике.
- Liquid AI LFM2.5-1.2B-Thinking — ещё меньше, но AIME берёт только 35% против 61% у VibeThinker.
Если вы ищете модель, которая "думает" как DeepSeek V4, но помещается в бюджетную видеокарту — VibeThinker ваш выбор. В отличие от флагманов, тут нет "парадокса лидерства": модель показывает результат честно, без приписывания.
Кому это нужно?
- Студентам и преподавателям — для генерации решений олимпиадных задач.
- Исследователям — для экспериментов с reasoning: веса открыты, можно дообучать.
- Стартапам — им не нужны облачные API с high-latency.
- Энтузиастам — запустить на старом ноутбуке и получить ИИ уровня DeepSeek V3? Легко.
Минус: модель бесполезна для генерации креатива — стихи, сценарии, диалоги получаются плоскими. Зато верификация фактов и математика — её стихия.
Инсайт от авторов (подсмотрели в GitHub Issues): они использовали синтетические данные, сгенерированные ThreadWeaver — моделью, которая учится параллельно ветвить мысли. VibeThinker-3B — это, по сути, дистиллят ThreadWeaver в компактной форме.
Совет: не пытайтесь заставить VibeThinker генерировать код для GUI или писать сказки — он будет тупить и выдавать водянистые цепочки. Используйте его как калькулятор для рассуждений: дайте задачу с верифицируемым ответом — и получите чёткое решение.
Прогноз: через полгода такие 3B-модели станут стандартом для edge-устройств. VibeThinker проложил дорогу, но конкуренция уже разгорается. Qwen, DeepSeek, Microsoft — все готовят свои версии. Главный вопрос: сможет ли Community поддерживать модель, когда разработчики уйдут в следующий проект?