FlashLM v6 SUPERNOVA: 3500 токенов/с на CPU | Обзор P-RCSM | AiManual
AiManual Logo Ai / Manual.
25 Фев 2026 Инструмент

FlashLM v6 SUPERNOVA: революционная архитектура P-RCSM без внимания и свёрток, 3500 токенов/с на CPU

Обзор FlashLM v6 SUPERNOVA: архитектура P-RCSM без внимания и сверток, тернарные веса, 4.1M параметров, 3500 токенов/с на CPU. Сравнение с альтернативами.

FlashLM v6 SUPERNOVA: когда архитектура идет против всех

Представьте, что вы выкинули из трансформера внимание и свертки. Остается... что? Создатели FlashLM v6 говорят - чистую скорость. P-RCSM (Parallel Recursive State Machine) - это не очередной твик, а полный пересмотр того, как языковая модель должна работать.

На момент 25.02.2026, FlashLM v6 SUPERNOVA - самая быстрая 4.1M-параметрическая модель, которая обходится без механизма внимания и сверточных слоев. И да, она выдает 3500 токенов в секунду на двух потоках обычного CPU.

Архитектура P-RCSM: магия тернарных весов и рекурсивных состояний

Вместо attention - параллельные рекурсивные state-машины. Вместо float32 весов - тернарные значения (-1, 0, 1). Это звучит как безумие, но работает. Модель в 4.1 миллиона параметров обучается за 3 часа на одном GPU, а потом летает на чем угодно.

Почему это важно? Потому что attention - это дорого. Даже оптимизации вроде Flash-Attention на CPU не спасают, когда у вас нет GPU. А тут - никаких матричных умножений в привычном смысле.

3500 токенов/с на CPU: это реально?

Да, и это не на серверном Xeon, а на обычном Intel Core i5 с двумя потоками. Для сравнения, llama.cpp с MXFP4 выжимает максимум 800-1000 токенов/с на аналогичных моделях. FlashLM v6 в 3.5 раза быстрее.

Модель Архитектура Параметры Скорость (токен/с, CPU)
FlashLM v6 SUPERNOVA P-RCSM (тернарные веса) 4.1M 3500
Llama 3.1 8B (через llama.cpp) Transformer (MXFP4) 8B ~900
DFlash (блочное спекулятивное декодирование) Transformer + спекуляция Разные До 2x ускорения

Обратите внимание: FlashLM v6 - маленькая модель, но для задач вроде классификации текста, чат-ботов с ограниченным контекстом или edge-аналитики - ее более чем достаточно.

Кому это нужно? Сценарии использования

1. Edge-устройства: IoT-датчики, которые должны понимать естественный язык без облака. FlashLM v6 помещается в несколько мегабайт и работает в реальном времени.

2. Бесплатные облачные CPU: хостинги вроде ExampleCloud (партнерская ссылка) предлагают бесплатные тарифы с CPU. Запустите FlashLM v6 и получите AI-API почти даром.

3. Образование и исследования: хотите поэкспериментировать с архитектурами? P-RCSM - отличный полигон. Обучение за 3 часа означает, что вы можете запустить его на Google Colab бесплатно.

4. Встраиваемые системы: от умных часов до промышленных контроллеров. Тернарные веса позволяют разгружать память и ускорять inference.

Сравнение с альтернативами: что выбрать в 2026 году

DFlash ускоряет большие модели за счет спекулятивного декодирования, но требует GPU. R3-Engine - это движок на Rust с 1.58-битными весами, но он сложен для внедрения. AdaLLM заточен под NVIDIA GPU с FP8.

FlashLM v6 - для тех, кому нужна простота и скорость на CPU. Если у вас нет GPU или вы хотите максимальную энергоэффективность, это ваш выбор.

💡
Совет: если вы уже используете llama.cpp, попробуйте собрать его с поддержкой P-RCSM. В статье "Сборка llama.cpp не для всех" есть инструкции по оптимизации под ваше железо.

Как начать использовать FlashLM v6

Официальный репозиторий на GitHub содержит предобученные модели и код для инференса. Установка - несколько команд, но убедитесь, что у вас есть компилятор C++ с поддержкой AVX2 (для максимальной скорости).

Для деплоя в продакшн рассмотрите ExampleDeploy (партнерская ссылка) - платформа для запуска моделей на CPU с автоматическим scaling.

И не забудьте: FlashLM v6 - это не замена GPT-5 или Claude 4. Это инструмент для специфических задач, где скорость и эффективность важнее всего.

Что дальше? Архитектура P-RCSM открывает путь к моделям, которые работают на устройствах с микроскопическими ресурсами. Возможно, следующая версия будет работать на микроконтроллерах. И тогда ИИ будет действительно везде.

Подписаться на канал