VibeThinker-3B: компактная AI-модель бьет рекорды на AIME 2026

Вот это поворот. Мы привыкли, что для победы на олимпиаде по математике нужно собрать кластер из десятков видеокарт и выудить бюджет стартапа средней руки. А тут выходит модель с тремя миллиардами параметров — и кладет на лопатки DeepSeek V3 с его 671B. Звучит как кликбейт? Отнюдь. VibeThinker-3B — это реальность июня 2026 года, и она заставляет пересмотреть всё, что мы знали о масштабировании.

Что за зверь и как он умудряется?

Сразу к делу: VibeThinker-3B — это не какой-то экзотический архитектурный монстр. База — Qwen2.5-3B, знакомая всем, кто игрался с маленькими моделями. Но фишка, как водится, не в размере, а в тренировке. Авторы (команда Weibo AI) применили rejection sampling и supervised fine-tuning на длинных цепочках рассуждений. Никаких экспертных смесей (MoE), никаких трюков с контекстом — просто натаскали кроху проверять каждый шаг своих мыслей.

Внутри — механизм само-верификации, похожий на «совет экспертов» (знакомая по статье ThreadWeaver). Модель генерирует несколько версий решения, сравнивает их внутренне и выбирает лучшее. На выходе — не креатив, а выверенная логика. Работает, чёрт возьми.

Модель	AIME26 (Pass@1)	MATH-500	GSM8K	HumanEval
VibeThinker-3B	61%	89%	94%	68%
DeepSeek V3 (671B)	63%	92%	96%	83%
DeepSeek V4 Flash (1.6T)	71%	95%	97%	89%
Qwen3.5-27B	57%	87%	92%	74%

Цифры говорят сами за себя. На AIME26 VibeThinker уступил DeepSeek V4 Flash всего 10%, имея в 500 раз меньше активных параметров. При этом на MATH-500 и GSM8K разрыв с гигантами — кот наплакал. Слабое место — код (HumanEval 68%), но для 3B это ожидаемо. Сравните с Qwen3.5-27B: VibeThinker выигрывает на математике, но проигрывает в кодинге.

Кстати, если вы следите за математическими моделями, то Step-3.5-Flash и MiMo-V2-Flash тоже показывают, что размер — не главное. Тренд очевиден.

Хайп есть, а деталей — кот наплакал

Авторы выложили веса на Hugging Face и GitHub под лицензией Apache 2.0 — молодцы, никто не спорит. Но попытки воспроизвести тренировку натыкаются на стену. Нет пайплайнов, нет датасетов, нет описания гиперпараметров. Почему? Либо хотят сохранить коммерческое преимущество, либо внутри что-то слишком хитрое, что пока не раскрывают.

Помните IQuest-Coder-V1? Там тоже было много шума, но код не давали. А потом тишина. С VibeThinker пока не так — модель работает и её можно запустить. Но для серьёзных проектов отсутствие прозрачности — тревожный звоночек.

Локальный AI на смартфоне? Уже почти

Модель весит около 6 ГБ в FP16. Это значит, что вы можете запустить её на ноутбуке с RTX 3060 (8GB VRAM) и получить скорость ~20 токенов/с. На смартфоне с 8GB RAM — да, можно, но через квантизацию. Уже есть сборки для локального инференса на GPU, и VibeThinker в них работает. Представьте: вы решаете задачу из AIME в метро, без интернета. Это не фантастика, это июнь 2026.

Но есть нюанс: на смартфоне модель будет медленнее — около 5-7 токенов/с. Для математических рассуждений это приемлемо (главное — качество), но для кода — уже маловато. Зато приватность: данные не уходят, модель ваша.

VibeThinker и математика: прорыв или случайность?

Весной 2026 года ИИ впервые помог верифицировать доказательство для Медали Филдса (читайте обзор). А тут маленькая модель показывает конкурентоспособные результаты на олимпиадных задачах. Возможно, мы стоим на пороге, когда компактные модели станут основным инструментом для студентов и исследователей, — ведь не нужно арендовать облачные GPU.

С другой стороны, на бенчмарке FrontierMath модели уровня PhD всё ещё пасуют. Но VibeThinker-3B — это шаг к демократизации хотя бы базовых математических способностей.

А что с кодингом? Не идеально, но терпимо

68% на HumanEval — это уровень GPT-3.5. Для 3B — отлично, но не рекорд. Cohere North Mini Code (30B MoE) показывает 72%, а специализированные кодовые модели уходят далеко вперёд. Однако VibeThinker позиционируется как универсальная reasoning-модель, а не кодер. Для генерации кода лучше посмотреть в сторону специализированных моделей.

Тем не менее, модель способна писать простые функции, отлаживать математические алгоритмы — этого достаточно для помощника при подготовке к собеседованию или решении олимпиадных задач по информатике.

Итог: стоит ли прыгать на поезд?

VibeThinker-3B — безусловно, технологический прорыв. Он доказывает, что качественное reasoning можно упаковать в 3 миллиарда параметров. Но без открытых данных о тренировке остаётся элемент магии. Если вы ищете локальную модель для математики — это лучший выбор на сегодня. Если нужен код — поищите другие варианты.

💡

Совет: подождите месяц. Скорее всего, кто-то из сообщества fine-tune'нет VibeThinker на дополнительных данных — и результаты подскочат. А пока скачайте веса и поэкспериментируйте. Это бесплатно.

Последнее: не забывайте, что гонка компактных моделей только начинается. Параллельное мышление и верификация доказательств — вот где будет настоящий прорыв. VibeThinker лишь первый ласточка.

Подписаться на канал

VibeThinker-3B: 3 миллиарда параметров, которые положили на лопатки DeepSeek