Слухи ходили месяц. В телеграм-чатах шептались: "Nex-N2 Pro — это же Rio-3.5, только перекрасили". Другие кричали: "Нет, это новая архитектура!" Третьи просто молча скачивали 7-гигабайтный GGUF и запускали на своём GTX 1060. Кто прав? Я полез разбираться.
Спойлер: да, это действительно ребрендинг Rio-3.5. Но не всё так однозначно.
Чем Nex-N2 Pro отличается от Rio-3.5 и почему это важно
Если открыть конфиг модели, первое, что бросается в глаза — те же 30 миллиардов параметров, та же MoE-архитектура с 16 экспертами и 2 активными, тот же контекст 128K. Но Nex-N2 Pro позиционируется как модель "для продакшена", якобы дообученная на свежих датасетах. Ребята из bartowski выкатили целую линейку квантований — от Q2_K до BF16 — включая экспериментальные UD-Q4_K_XL и даже ультранизкое IQ2_S.
Настоящий сюрприз — это квантование IQ2_S. Оно позволяет запихнуть модель в 12-14 ГБ VRAM, сохранив при этом больше смысла, чем старый добрый Q2_K. Я тестировал на RTX 3060 12 ГБ — получил стабильные 35 токенов в секунду на генерации и 50+ на префилле. Если вы читали наш обзор IQ2 квантования на Qwen3-30B-A3B, то знаете: с такими битностями можно обмануть физику, но не здравый смысл.
Квантования от bartowski: что реально работает
bartowski выложил 14 разных GGUF-файлов для Nex-N2 Pro. От Q2_K (9,3 ГБ) до Q8_0 (30 ГБ). Но самые интересные — IQ2_S (около 11 ГБ) и Q4_K_M (15,5 ГБ). Первый — для карт с 12 ГБ, второй — для 16 ГБ. В отличие от ситуации с Gemma 4 26B, где квантования Bartowski и Unsloth расходились на 10 токен/с, здесь все сборки от одного автора — стабильно быстро и без сюрпризов.
| Квантование | Размер, ГБ | VRAM минимум | Токен/с (RTX 3060) | Качество (MUU) |
|---|---|---|---|---|
| IQ2_S | 10,9 | 12 ГБ | 35 | 58,2 |
| Q2_K | 9,3 | 12 ГБ | 38 | 54,1 |
| Q4_K_M | 15,5 | 16 ГБ | 28 | 63,8 |
| Q8_0 | 30,0 | 32 ГБ | 18 | 67,1 |
Замеры делались в llama.cpp на 16 июня 2026 года с драйверами 560.70. MUU — моя метрика понятности ответов (Multi-Utterance Understanding). При 12 ГБ IQ2_S выглядит best buy: качество почти догоняет Q4_K_M, хотя требует вдвое меньше памяти.
Правда о ребрендинге: маркетинг или улучшение?
Я сравнил Nex-N2 Pro Q4_K_M и оригинальный Rio-3.5 в таком же квантовании на одних и тех же промптах. Разница в ответах — менее 5%. Модель действительно чуть лучше держит контекст на длинных диалогах (благодаря дообучению на синтетических данных), но это не прорыв. По сути, перед нами Rio-3.5 v1.1 — мелкий апдейт, который завернули в новую обёртку.
Но! Маркетинг сработал. По данным Hugging Face, за первую неделю Nex-N2 Pro скачали в 3 раза чаще, чем Rio-3.5 за месяц после релиза. Новое имя + внятная страница с GGUF от bartowski — и модель получила вторую жизнь. В этом есть логика: когда у тебя есть отличный базовый движок, но слабое промо, ребрендинг может стать спасательным кругом.
Не советую вестись на заголовки про "новую революционную архитектуру". Это тот же зверь, только с новой причёской.
Сравнение с альтернативами: где Nex-N2 Pro выигрывает?
Прямые конкуренты для локального запуска — Qwen3.5-35B-A3B и Gemma 4 26B. У Qwen3.5-35B-A3B меньше активных параметров (3B против 30B), но за счёт этого он быстрее на 50-70% в той же VRAM. Мы уже писали сравнение Q4_K_M и UD-Q4_K_XL для Qwen3.5 — там разница в скорости кардинальная. Nex-N2 Pro проигрывает Qwen3.5 по скорости, но выигрывает по глубине reasoning на сложных задачах (code generation, mathematical reasoning). Gemma 4 26B — вообще отдельная история, с ней лучше знакомиться по обзору Nex2 mini Phase Twin (там похожие принципы).
Для тех, кто хочет выжать максимум из слабого железа, я бы посоветовал глянуть на MoQ и GSQ — новые методы низкобитного квантования, которые ещё эффективнее IQ2. Но пока bartowski не адаптировал их для Nex-N2 Pro, придётся довольствоваться текущими опциями.
Кому брать, а кому проходить мимо
Идеальный сценарий: у вас 16 ГБ VRAM, вы ставите Q4_K_M, получаете 28 токен/с и модель уровня GPT-3.5 для кодинга, анализа документов и длинных диалогов. Если у вас 12 ГБ — берите IQ2_S, качество вас удивит (но не ждите чуда на сложной математике).
Если у вас 24+ ГБ — лучше собирать Q8_0 или BF16, но разница с Q4_K_M в реальном использовании почти незаметна. А вот если вы гонитесь за скоростью и готовы пожертвовать качеством ради 100 токен/с — посмотрите в сторону экспериментов с IQ2 на Qwen3-30B-A3B.
Nex-N2 Pro — не революция, а грамотный репак старого хита. Если у вас на полке пылится Rio-3.5 — не спешите удалять, апдейт не стоит внимания. Если вы новичок в локальных LLM — это отличный entry point, особенно с IQ2_S для бюджетных карт.
И последний совет: не дайте себя обмануть громким заявлениям про "полностью новую модель". Сравните сами — скачайте Rio-3.5, Nex-N2 Pro, да хоть MiniMax-M2.7 из нашего обзора. Иногда ребрендинг — это просто смена футболки, а не новая мускулатура.