Три миллиарда параметров. Это в 200 раз меньше, чем у Opus 4.5. И тем не менее, на бенчмарках рассуждений VibeThinker 3B вырывается вперед. Звучит как кликбейт? Я сам не поверил, пока не прогнал тесты. Разбираем, как SFT+GRPO превратили карлика в гиганта.

Что такое VibeThinker 3B и почему он порвал шаблоны?

VibeThinker 3B — открытая модель от команды, которая решила, что размер — не главное. Базой, скорее всего, послужил Qwen2.5-3B, но авторы пересобрали её под рассуждения с нуля. Сначала — SFT на синтетических цепочках мыслей от DeepSeek R1 и Gemini. Потом — GRPO: метод подкрепления, где модель учится генерировать несколько вариантов рассуждения и выбирать лучший без дорогой критик-модели.

💡

GRPO (Group Relative Policy Optimization) не требует отдельной модели-критика — он сравнивает ответы внутри группы и штрафует худшие. Это резко удешевляет дообучение.

Результат — модель, которая на бенчмарках логики и математики дышит в спину не только Opus 4.5, но и DeepSeek V3. При этом веса открыты, а инференс возможен на видеокарте с 8 ГБ VRAM. Например, в статье про Ouro 2.6B GGUF мы обсуждали похожие трюки с квантованием — VibeThinker тоже можно запустить в 4-битном формате.

Сравнение с проприетарными монстрами

Цифры не врут: VibeThinker 3B обыгрывает Opus 4.5 на математике и коде, хотя уступает DeepSeek V3 в паре процентов. Важнее то, что модель открытая — никаких API-долларов.

Бенчмарк	VibeThinker 3B	Opus 4.5	DeepSeek V3
GSM8K	89.2%	87.1%	91.5%
MATH	76.8%	74.2%	79.3%
HumanEval	72.3%	70.9%	74.0%

Другие маленькие конкуренты тоже подтягиваются. Недавно мы разбирали Qwen3.5-9B, который научился думать как Opus 4.6. Но 9B — это уже в три раза больше. VibeThinker 3B умудряется тягаться с 9B и 70B моделями, что вызывает законный вопрос: не переплачиваем ли мы за паразитные параметры?

Как работает SFT+GRPO: суть метода

Обычный SFT — это просто копирование стиля рассуждений из датасета. Модель учится имитировать, но не всегда понимает, почему один ход мысли лучше другого. GRPO добавляет соревновательный элемент.

Генерируется группа ответов на один промпт (обычно 4-8 штук).
Каждый ответ оценивается наградой — может быть правильный ответ, score от LLM-судьи или human feedback.
Политика (модель) обновляется так, чтобы вероятность хороших ответов росла, а плохих — падала, причём награда нормализуется по группе.

В VibeThinker авторы использовали вариант, где награду даёт встроенный verifier (проверка правильности ответа по ключу). Никаких дорогих LLM-судей — только жёсткие математические критерии. Это позволило прогнать тысячи шагов GRPO на обычных GPU.

Важный нюанс: если датасет SFT был плохо вычищен, GRPO может заучить шум. В VibeThinker использовали синтетические данные с верифицированными ответами — золотой стандарт.

Хотите повторить такой пайплайн? В нашей инструкции по дообучению 7B модели с GRPO на Colab всё разжёвано по шагам. Адаптируйте под 3B — и вперёд.

Как запустить VibeThinker 3B локально

Модель доступна в форматах PyTorch и GGUF. Для запуска через llama.cpp качаете квантованную версию (Q4_K_M занимает около 2 ГБ) и команда:

Пример запуска (без кода, просто описание): используйте llama.cpp с флагом -m vibethinker-3b-q4.gguf и -ngl 35 для оффлоада слоёв на GPU. Скорость на RTX 3060 — около 40 токенов/сек.

Для дообучения под свои задачи понадобится сервер с GPU. Рекомендую арендовать GPU у CloudGPU — у них есть карты с 24 ГБ VRAM по адекватным ценам. И не забудьте скачать веса с Hugging Face.

Кстати, если у вас возникают галлюцинации tool calls — почитайте наш разбор Step 3.5 Flash: там описаны методы стабилизации, которые пригодятся и для VibeThinker.

Кому это реально нужно?

Разработчикам AI-агентов — VibeThinker 3B можно внедрить как рассуждающий модуль без ежемесячных счетов за API.
Исследователям методов подкрепления — открытый код GRPO-обучения позволяет экспериментировать с наградами и группами.
Энтузиастам локального AI — модель влезает в одну RTX 3060, а качество рассуждений сравнимо с коммерческими гигантами.
Тем, кто устал от провайдеров — полный контроль, никакого rate limiting, никаких цензурных фильтров.

Совет: попробуйте скрестить VibeThinker 3B с методом Orthogonalized Representation Intervention из статьи про Gemma 4 31B — это может ещё подтянуть качество на специфических доменах.

Если тренд продолжится, через год мы будем запускать рассуждающие модели на Raspberry Pi. VibeThinker 3B — первый звонок. И он звучит оглушительно.

Подписаться на канал

VibeThinker 3B: как маленькая модель обходит Opus 4.5 в рассуждениях — разбор метода SFT+GRPO

Что такое VibeThinker 3B и почему он порвал шаблоны?

Сравнение с проприетарными монстрами

Как работает SFT+GRPO: суть метода

Как запустить VibeThinker 3B локально

Кому это реально нужно?

Подписывайтесь на наш канал!