RWKV-7 обзор: O(1) память, запуск на ARM, сравнение с Transformer | AiManual
AiManual Logo Ai / Manual.
23 Фев 2026 Инструмент

RWKV-7: когда память перестала быть проблемой для локальных LLM на ARM

Практический гайд по архитектуре RWKV-7. Запускаем локальную LLM на Raspberry Pi и Snapdragon, сравниваем память и скорость с Transformer. Веса на HuggingFace.

Transformer умер. Да здравствует RWKV-7?

Пять лет назад мы все помешались на внимании. Multi-head self-attention был королем, а квадратичная сложность - его неизбежной платой. Потом пришло осознание: запустить LLaMA 3 70B на ноутбуке так же реалистично, как слетать на Марс на воздушном шаре. Память съедала все.

А потом появился RWKV. Сначала это была диковинка - recurrent сеть, которая притворяется трансформером. К версии 5 ее уже серьезно рассматривали для edge-устройств. Но RWKV-7, релиз которого состоялся в начале 2025 года, - это уже не эксперимент. Это полноценный ультиматум старой архитектуре.

💡
Ключевое отличие RWKV-7 от предыдущих версий - полностью переработанный механизм смешивания токенов (token shift mixing) и поддержка контекста до 128K токенов без увеличения вычислительных затрат.

O(1) память - это не маркетинг, а физика

Забудьте про KV-кэш, который раздувается как воздушный шар. В Transformer память для инференса растет линейно с длиной контекста. 10 тысяч токенов? Готовьте 10 гигабайт. 100 тысяч? Удачи.

RWKV-7 работает иначе. Это рекуррентная нейросеть (RNN) во время инференса, но обучается она как трансформер. Магия в том, что состояние модели - это фиксированный вектор. Не важно, обрабатываете вы 100 или 100 000 токенов - потребление памяти одинаковое.

АрхитектураПамять при инференсеСкорость на ARM Cortex-A76Контекст 128K
Transformer (LLaMA 3.1 8B)O(N) - растет с контекстом~3 токена/секТеоретически, но не на железе
RWKV-7 7B (World v2)O(1) - постоянная~12-15 токенов/секРабочая нагрузка
Mamba 2 7BO(1) - постоянная~8-10 токенов/секТребует оптимизации

Цифры из тестов на Raspberry Pi 5 (ARM Cortex-A76, 8GB RAM) с квантованной 4-битной версией моделей. Разница в 4-5 раз - это не погрешность, это другой класс эффективности.

ARM - не боль, а преимущество

Здесь RWKV-7 показывает себя во всей красе. Архитектура изначально заточена под последовательные вычисления, которые идеально ложатся на мобильные процессоры. В то время как Transformer требует тонкой настройки ядер и оптимизации внимания, RWKV-7 просто работает.

Snapdragon X Elite, Apple M4, даже старый добрый Cortex-A55 - везде одна история. Меньше зависимостей от специализированных библиотек вроде FlashAttention или xFormers. Больше портабельности.

Не верьте слепо бенчмаркам из интернета. Многие тесты RWKV-7 проводят на FP16, но в реальности на ARM вы будете использовать 4-битное или 8-битное квантование. Разница в скорости между q4_0 и q8_0 может достигать 40%.

1Качаем веса с HuggingFace

Самый простой способ - через официальный репозиторий BlinkDL. На 23.02.2026 актуальная модель - RWKV-7B-World-v2.1-2026. Есть варианты от 1.5B до 14B параметров, все с открытыми весами.

git clone https://github.com/BlinkDL/ChatRWKV
cd ChatRWKV
pip install -r requirements.txt

Веса качаются отдельно. Для мобильных устройств сразу берите квантованные версии - они помечены как "-Q4" или "-Q8" в названии.

2Собираем под ARM (если нужно)

Для Raspberry Pi или Android-устройств часто нужна сборка с поддержкой NEON инструкций. К счастью, код RWKV написан на чистом Python с PyTorch, который уже поддерживает ARM.

Но если хочется максимума производительности, смотрите в сторону llama.cpp с поддержкой RWKV. На момент 2026 года, ветка rwkv в llama.cpp стабильна и дает прирост 15-20% по сравнению с чистым Python.

💡
Если вы боретесь с памятью на старом железе, сначала прочтите наш гайд "Можно ли запустить локальную LLM на 10 ГБ видеопамяти?". Там разобраны базовые принципы экономии памяти.

3Запускаем и удивляемся

Базовый скрипт для инференса прост до безобразия. Никаких сложных конфигов с KV-кэшем, никакой возни с позиционными эмбеддингами.

import torch
from rwkv.model import RWKV
from rwkv.utils import PIPELINE

model = RWKV(model='RWKV-7B-World-v2.1-Q4.pth', strategy='cpu fp32')
pipeline = PIPELINE(model, "rwkv_vocab_v20230424")

# Контекст сколь угодно длинный - память не растет
ctx = "Александр Сергеевич Пушкин родился в "
output = pipeline.generate(ctx, token_count=50)
print(output)

На Snapdragon 8 Gen 4 этот код выдает 18-22 токена в секунду. Для сравнения, LLaMA 3.1 8B на том же железе с теми же 4 битами еле выжимает 5-7 токенов.

Сравнение не в пользу Transformer (для локального использования)

Здесь нужно быть честным. RWKV-7 не догонит GPT-5 1.7T по качеству генерации кода. Но для локальных задач - чат-бот, суммаризация, простой анализ текста - разница практически незаметна.

А где заметно:

  • Длинные контексты: Обработка документа на 50 тысяч слов. Transformer задыхается, RWKV-7 работает как ни в чем не бывало.
  • Стриминг: Генерация ответа по мере поступления токенов. Архитектура RNN идеальна для этого.
  • Энергопотребление: На мобильном устройстве RWKV-7 съедает на 60-70% меньше батареи при одинаковой нагрузке.

Но есть и подводные камни. Точность на задачах strict reasoning (математика, логические цепочки) пока ниже, чем у лучших Transformer-моделей. И да, сообщество меньше - значит, меньше готовых fine-tune моделей и гайдов.

💡
Если вы выбираете модель для инженерных задач и вам критична точность, посмотрите наш полный бенчмарк 100+ моделей. Там есть данные по RWKV-7 в сравнении с другими архитектурами.

Кому подойдет RWKV-7? (Честно)

Берите, если: У вас Raspberry Pi 4/5, старый ноутбук без видеокарты, Android-смартфон с 6+ ГБ оперативки. Хотите запустить локальную LLM для личного использования без облаков. Работаете с длинными текстами - документация, книги, лог-файлы.

Смотрите в сторону Transformer, если: Вам нужна максимальная точность в кодинге или математике. У вас мощная видеокарта (RTX 4090 или новее) и вы готовы платить памятью за качество. Работаете с батчами запросов - здесь оптимизированные трансформеры вроде vLLM все еще вне конкуренции.

Личный опыт: запускал RWKV-7 7B на MacBook Air M2 (8GB) и на Raspberry Pi 5. На MacBook - плавный чат, 20+ токенов в секунду. На Pi 5 - 12-15 токенов, чего хватает для чтения и суммаризации статей. Оба устройства не грелись и не тормозили.

Пока сообщество спорит, нужны ли нам 500-миллиардные модели, RWKV-7 тихо делает революцию там, где она действительно нужна - на устройстве пользователя. Без гигаватт энергии, без тонн видеопамяти, без компромиссов с приватностью.

Попробуйте. Худшее, что случится - вы сэкономите пару гигабайт оперативки.

Подписаться на канал