Вот это поворот. Мы привыкли, что для победы на олимпиаде по математике нужно собрать кластер из десятков видеокарт и выудить бюджет стартапа средней руки. А тут выходит модель с тремя миллиардами параметров — и кладет на лопатки DeepSeek V3 с его 671B. Звучит как кликбейт? Отнюдь. VibeThinker-3B — это реальность июня 2026 года, и она заставляет пересмотреть всё, что мы знали о масштабировании.
Что за зверь и как он умудряется?
Сразу к делу: VibeThinker-3B — это не какой-то экзотический архитектурный монстр. База — Qwen2.5-3B, знакомая всем, кто игрался с маленькими моделями. Но фишка, как водится, не в размере, а в тренировке. Авторы (команда Weibo AI) применили rejection sampling и supervised fine-tuning на длинных цепочках рассуждений. Никаких экспертных смесей (MoE), никаких трюков с контекстом — просто натаскали кроху проверять каждый шаг своих мыслей.
Внутри — механизм само-верификации, похожий на «совет экспертов» (знакомая по статье ThreadWeaver). Модель генерирует несколько версий решения, сравнивает их внутренне и выбирает лучшее. На выходе — не креатив, а выверенная логика. Работает, чёрт возьми.
| Модель | AIME26 (Pass@1) | MATH-500 | GSM8K | HumanEval |
|---|---|---|---|---|
| VibeThinker-3B | 61% | 89% | 94% | 68% |
| DeepSeek V3 (671B) | 63% | 92% | 96% | 83% |
| DeepSeek V4 Flash (1.6T) | 71% | 95% | 97% | 89% |
| Qwen3.5-27B | 57% | 87% | 92% | 74% |
Цифры говорят сами за себя. На AIME26 VibeThinker уступил DeepSeek V4 Flash всего 10%, имея в 500 раз меньше активных параметров. При этом на MATH-500 и GSM8K разрыв с гигантами — кот наплакал. Слабое место — код (HumanEval 68%), но для 3B это ожидаемо. Сравните с Qwen3.5-27B: VibeThinker выигрывает на математике, но проигрывает в кодинге.
Кстати, если вы следите за математическими моделями, то Step-3.5-Flash и MiMo-V2-Flash тоже показывают, что размер — не главное. Тренд очевиден.
Хайп есть, а деталей — кот наплакал
Авторы выложили веса на Hugging Face и GitHub под лицензией Apache 2.0 — молодцы, никто не спорит. Но попытки воспроизвести тренировку натыкаются на стену. Нет пайплайнов, нет датасетов, нет описания гиперпараметров. Почему? Либо хотят сохранить коммерческое преимущество, либо внутри что-то слишком хитрое, что пока не раскрывают.
Помните IQuest-Coder-V1? Там тоже было много шума, но код не давали. А потом тишина. С VibeThinker пока не так — модель работает и её можно запустить. Но для серьёзных проектов отсутствие прозрачности — тревожный звоночек.
Локальный AI на смартфоне? Уже почти
Модель весит около 6 ГБ в FP16. Это значит, что вы можете запустить её на ноутбуке с RTX 3060 (8GB VRAM) и получить скорость ~20 токенов/с. На смартфоне с 8GB RAM — да, можно, но через квантизацию. Уже есть сборки для локального инференса на GPU, и VibeThinker в них работает. Представьте: вы решаете задачу из AIME в метро, без интернета. Это не фантастика, это июнь 2026.
Но есть нюанс: на смартфоне модель будет медленнее — около 5-7 токенов/с. Для математических рассуждений это приемлемо (главное — качество), но для кода — уже маловато. Зато приватность: данные не уходят, модель ваша.
VibeThinker и математика: прорыв или случайность?
Весной 2026 года ИИ впервые помог верифицировать доказательство для Медали Филдса (читайте обзор). А тут маленькая модель показывает конкурентоспособные результаты на олимпиадных задачах. Возможно, мы стоим на пороге, когда компактные модели станут основным инструментом для студентов и исследователей, — ведь не нужно арендовать облачные GPU.
С другой стороны, на бенчмарке FrontierMath модели уровня PhD всё ещё пасуют. Но VibeThinker-3B — это шаг к демократизации хотя бы базовых математических способностей.
А что с кодингом? Не идеально, но терпимо
68% на HumanEval — это уровень GPT-3.5. Для 3B — отлично, но не рекорд. Cohere North Mini Code (30B MoE) показывает 72%, а специализированные кодовые модели уходят далеко вперёд. Однако VibeThinker позиционируется как универсальная reasoning-модель, а не кодер. Для генерации кода лучше посмотреть в сторону специализированных моделей.
Тем не менее, модель способна писать простые функции, отлаживать математические алгоритмы — этого достаточно для помощника при подготовке к собеседованию или решении олимпиадных задач по информатике.
Итог: стоит ли прыгать на поезд?
VibeThinker-3B — безусловно, технологический прорыв. Он доказывает, что качественное reasoning можно упаковать в 3 миллиарда параметров. Но без открытых данных о тренировке остаётся элемент магии. Если вы ищете локальную модель для математики — это лучший выбор на сегодня. Если нужен код — поищите другие варианты.
Последнее: не забывайте, что гонка компактных моделей только начинается. Параллельное мышление и верификация доказательств — вот где будет настоящий прорыв. VibeThinker лишь первый ласточка.