Что такое Mixture of Tokens?

MoT — это архитектура, в которой роутер динамически выбирает, через какой экспертный FFN-слой пропустить каждый токен, активируя только один из нескольких модулей. Это радикально сокращает вычислительные затраты при сохранении качества.

Сколько активных параметров в SenseNova-U1-A3B-MoT?

Всего параметров — 3B, активных — 1B. Остальные параметры — это экспертные веса, которые не участвуют в инференсе для данного токена.

Можно ли запустить модель на видеокарте с 8GB VRAM?

Да, в 4-bit квантизации модель занимает около 2.5GB, а full-precision версия — около 6GB. Отлично работает на RTX 3060/4060 и даже на Apple Silicon с 8GB unified memory.

В чём отличие от MoE?

В MoE каждый слой выбирает одного эксперта из набора, и все токены проходят через одного и того же эксперта для данного слоя. В MoT роутер работает на уровне отдельных токенов — разные токены могут попасть в разные экспертные модули внутри одного и того же слоя.

SenseNova-U1-A3B-MoT: обзор Mixture of Tokens архитектуры

Представьте модель, у которой всего 1B активных параметров, но она уделывает многие 7B-модели на бенчмарках. 26 апреля 2026 года SenseTime выложила на Hugging Face SenseNova-U1-A3B-MoT — и это не просто очередной LLM, а полноценный переворот в проектировании эффективных нейросеток.

Mixture of Tokens (MoT) звучит как очередной маркетинговый термин, но за ним стоит гениально простая идея: вместо того чтобы гонять каждый токен через все слои модели (как в плотных трансформерах) или через фиксированный набор экспертов (как в MoE), MoT динамически выбирает, какой токен какой экспертный FFN-слой должен обрабатывать. Каждый токен проходит свой уникальный путь — роутер решает, в какой из нескольких FFN-модулей направить токен, и только один из них активируется. Это радикально снижает вычислительную нагрузку: при общем размере 3B параметров одновременно активны только 1B.

В отличие от Mixture of Experts (MoE), где каждый слой имеет несколько экспертов, и выбор происходит на уровне слоя, в MoT роутер работает на уровне токена и может отправлять разные токены одного предложения в разные FFN-модули одного слоя. Это даёт более гибкое распределение compute.

На практике это даёт две вещи: скорость и экономию памяти. На RTX 3060 12GB модель выдаёт около 50 токенов в секунду при потреблении 2-2.5GB VRAM — вы можете спокойно запустить её на ноутбуке вместе с ещё несколькими сервисами. Для сравнения, Qwen 2.5-1.5B (плотная) использует все 1.5B параметров постоянно, а качество её заметно ниже. Mistral Small 4 (8B total, 2B active) показывает впечатляющие результаты для своего активного размера, но SenseNova-U1 при тех же 1B активных параметров обходит его по MMLU и HumanEval.

Ключевые цифры (актуальные на май 2026): длина контекста — 128K токенов, обучена на 1.5T токенов на смеси китайского и английского. Модель доступна под лицензией Apache 2.0 — можно использовать для коммерческих проектов. Репозиторий на Hugging Face уже набрал несколько тысяч звёзд, community быстро портирует модель под gguf для запуска через ollama и llama.cpp.

Где это побеждает, а где проигрывает

Сравнение с эффективными моделями этого года: MiniMax M2.1 использует гибрид dense-MoE, но при сопоставимом качестве требователен к памяти. SenseNova-U1 же стабильно влезает в 8GB VRAM даже при batch size = 1. По сравнению с Mistral Small 4 (2B active) — SenseNova быстрее на 20-30% на том же железе, а качество на русском языке примерно равное (учитывая, что обе модели не специализированы на русском).

Но есть и недостатки. Во-первых, архитектура MoT новая, и tooling для fine-tuning пока кустарный — официальных рецептов почти нет. Во-вторых, токенизатор заточен под китайские и английские тексты; на русском возможны неоптимальные разбиения (средняя длина токена чуть выше). В-третьих, модель не поддерживает функции типа tool calling или structured output из коробки — придётся дорабатывать. Subquadratic Attention от NVIDIA решает проблему ультрадлинного контекста, но здесь контекст 128K — более чем достаточно для 99% задач.

С другой стороны, SenseNova-U1 отлично подходит для on-device AI — например, её можно запустить даже на Apple Silicon с 8GB unified memory через MLX. За счёт малого числа активных параметров модель быстра и энергоэффективна. Это делает её идеальной для embedded-сценариев или для запуска на Raspberry Pi 5 с AI accelerator (конечно, с квантизацией).

Как попробовать самому

Характеристика	Значение
Архитектура	MoT (6 экспертов, топ-1 роутер)
Всего параметров	3B
Активные параметры	1B
Контекст	128K
Обучение	1.5T токенов
Языки	китайский, английский

Установка через transformers — уже готовая интеграция в HF Hub. Пример минимального использования: pip install transformers accelerate, затем стандартная загрузка. Для чата можно использовать pipeline. Если нужно быстрее — готовая поддержка vLLM (версия 0.8.0+) с динамическим batching. Квантованные версии (4-bit AWQ) уменьшают размер модели до 2.5GB — поместится даже в старенькую GTX 1650 с 4GB.

from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("SenseTime/SenseNova-U1-A3B-MoT")
model = AutoModelForCausalLM.from_pretrained("SenseTime/SenseNova-U1-A3B-MoT", device_map="auto")
input_text = "Напиши функцию на Python для сортировки списка"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(output[0], skip_special_tokens=True))

Результат на RTX 3060 — 0.3 секунды до первого токена и 50 токен/с генерация. Для сравнения: та же команда на Mistral Small 4 (с активными 2B) заняла бы 0.5 секунды PP и 35 токен/с.

Важный нюанс: модель сырая для русского. Если вам нужно генерировать русский текст, рекомендую использовать промпты на английском с переводом результата, либо дождаться community-дообучения. Уже появились первые русские LoRA-адаптеры на CivitAI.

Где модель показывает себя лучшим образом: кодинг (HumanEval 72% pass@1), суммаризация документов (Benchmark ROUGE-L 38.5), генерация кода на Python и TypeScript, агентные сценарии. У самого SenseTime есть агентный VLM MARS, который использует эту модель в качестве текстового бэкенда — связка даёт отличный balance между скоростью и качеством.

Лично я уже заменил Qwen 2.5-7B на SenseNova-U1 в своей локальной копилке для повседневных задач — экономия VRAM позволила одновременно крутить Whisper для распознавания речи (аналогично этому пайплайну на iPhone) и ещё держать openai-compatible сервер. Результат: один ноутбук с 16GB RAM справляется с real-time диктовкой + генерацией ответов.

Если вы всё ещё думаете, что 1B параметров — это маловато для серьёзных дел, посмотрите на Subquadratic Attention и поймёте, что гонка тотальных чисел параметров закончилась. Теперь главное — эффективность. SenseNova-U1-A3B-MoT — это тот случай, когда меньше оказывается больше. Советую скачать и попробовать: возможно, именно эта модель станет вашим основным «рабочим конём» для локального AI в 2026 году.

Подписаться на канал

SenseNova-U1-A3B-MoT: 1B параметров, которые работают как 7B. Китайцы снова всех переиграли?

Где это побеждает, а где проигрывает

Как попробовать самому

Подписывайтесь на наш канал!