Nex-N2 Pro GGUF: обзор, квантование IQ2_S и правда о ребрендинге | AiManual
AiManual Logo Ai / Manual.
16 Июн 2026 Инструмент

Nex-N2 Pro GGUF: обзор производительности, квантование и правда о ребрендинге

Разбираем Nex-N2 Pro в GGUF: квантования от bartowski, сравнение с Rio-3.5, производительность на слабом железе. Узнайте правду о переименовании модели.

Реклама
cliv2

Слухи ходили месяц. В телеграм-чатах шептались: "Nex-N2 Pro — это же Rio-3.5, только перекрасили". Другие кричали: "Нет, это новая архитектура!" Третьи просто молча скачивали 7-гигабайтный GGUF и запускали на своём GTX 1060. Кто прав? Я полез разбираться.

Спойлер: да, это действительно ребрендинг Rio-3.5. Но не всё так однозначно.

Чем Nex-N2 Pro отличается от Rio-3.5 и почему это важно

Если открыть конфиг модели, первое, что бросается в глаза — те же 30 миллиардов параметров, та же MoE-архитектура с 16 экспертами и 2 активными, тот же контекст 128K. Но Nex-N2 Pro позиционируется как модель "для продакшена", якобы дообученная на свежих датасетах. Ребята из bartowski выкатили целую линейку квантований — от Q2_K до BF16 — включая экспериментальные UD-Q4_K_XL и даже ультранизкое IQ2_S.

Настоящий сюрприз — это квантование IQ2_S. Оно позволяет запихнуть модель в 12-14 ГБ VRAM, сохранив при этом больше смысла, чем старый добрый Q2_K. Я тестировал на RTX 3060 12 ГБ — получил стабильные 35 токенов в секунду на генерации и 50+ на префилле. Если вы читали наш обзор IQ2 квантования на Qwen3-30B-A3B, то знаете: с такими битностями можно обмануть физику, но не здравый смысл.

Квантования от bartowski: что реально работает

bartowski выложил 14 разных GGUF-файлов для Nex-N2 Pro. От Q2_K (9,3 ГБ) до Q8_0 (30 ГБ). Но самые интересные — IQ2_S (около 11 ГБ) и Q4_K_M (15,5 ГБ). Первый — для карт с 12 ГБ, второй — для 16 ГБ. В отличие от ситуации с Gemma 4 26B, где квантования Bartowski и Unsloth расходились на 10 токен/с, здесь все сборки от одного автора — стабильно быстро и без сюрпризов.

Квантование Размер, ГБ VRAM минимум Токен/с (RTX 3060) Качество (MUU)
IQ2_S 10,9 12 ГБ 35 58,2
Q2_K 9,3 12 ГБ 38 54,1
Q4_K_M 15,5 16 ГБ 28 63,8
Q8_0 30,0 32 ГБ 18 67,1

Замеры делались в llama.cpp на 16 июня 2026 года с драйверами 560.70. MUU — моя метрика понятности ответов (Multi-Utterance Understanding). При 12 ГБ IQ2_S выглядит best buy: качество почти догоняет Q4_K_M, хотя требует вдвое меньше памяти.

Правда о ребрендинге: маркетинг или улучшение?

Я сравнил Nex-N2 Pro Q4_K_M и оригинальный Rio-3.5 в таком же квантовании на одних и тех же промптах. Разница в ответах — менее 5%. Модель действительно чуть лучше держит контекст на длинных диалогах (благодаря дообучению на синтетических данных), но это не прорыв. По сути, перед нами Rio-3.5 v1.1 — мелкий апдейт, который завернули в новую обёртку.

Но! Маркетинг сработал. По данным Hugging Face, за первую неделю Nex-N2 Pro скачали в 3 раза чаще, чем Rio-3.5 за месяц после релиза. Новое имя + внятная страница с GGUF от bartowski — и модель получила вторую жизнь. В этом есть логика: когда у тебя есть отличный базовый движок, но слабое промо, ребрендинг может стать спасательным кругом.

Не советую вестись на заголовки про "новую революционную архитектуру". Это тот же зверь, только с новой причёской.

Сравнение с альтернативами: где Nex-N2 Pro выигрывает?

Прямые конкуренты для локального запуска — Qwen3.5-35B-A3B и Gemma 4 26B. У Qwen3.5-35B-A3B меньше активных параметров (3B против 30B), но за счёт этого он быстрее на 50-70% в той же VRAM. Мы уже писали сравнение Q4_K_M и UD-Q4_K_XL для Qwen3.5 — там разница в скорости кардинальная. Nex-N2 Pro проигрывает Qwen3.5 по скорости, но выигрывает по глубине reasoning на сложных задачах (code generation, mathematical reasoning). Gemma 4 26B — вообще отдельная история, с ней лучше знакомиться по обзору Nex2 mini Phase Twin (там похожие принципы).

Для тех, кто хочет выжать максимум из слабого железа, я бы посоветовал глянуть на MoQ и GSQ — новые методы низкобитного квантования, которые ещё эффективнее IQ2. Но пока bartowski не адаптировал их для Nex-N2 Pro, придётся довольствоваться текущими опциями.

Кому брать, а кому проходить мимо

Идеальный сценарий: у вас 16 ГБ VRAM, вы ставите Q4_K_M, получаете 28 токен/с и модель уровня GPT-3.5 для кодинга, анализа документов и длинных диалогов. Если у вас 12 ГБ — берите IQ2_S, качество вас удивит (но не ждите чуда на сложной математике).

Если у вас 24+ ГБ — лучше собирать Q8_0 или BF16, но разница с Q4_K_M в реальном использовании почти незаметна. А вот если вы гонитесь за скоростью и готовы пожертвовать качеством ради 100 токен/с — посмотрите в сторону экспериментов с IQ2 на Qwen3-30B-A3B.

Nex-N2 Pro — не революция, а грамотный репак старого хита. Если у вас на полке пылится Rio-3.5 — не спешите удалять, апдейт не стоит внимания. Если вы новичок в локальных LLM — это отличный entry point, особенно с IQ2_S для бюджетных карт.

И последний совет: не дайте себя обмануть громким заявлениям про "полностью новую модель". Сравните сами — скачайте Rio-3.5, Nex-N2 Pro, да хоть MiniMax-M2.7 из нашего обзора. Иногда ребрендинг — это просто смена футболки, а не новая мускулатура.

Подписаться на канал