Зачем нам ещё одна архитектура внимания?
Знаете это чувство, когда модель помнит начало диалога, но к середине забывает, о чём вы говорили полчаса назад? С MiniMax M3 это чувство исчезает. Потому что инженеры MiniMax, похоже, решили: «Давайте сделаем attention настолько эффективным, чтобы он мог читать «Войну и мир» залпом».
Новинка — это не просто очередной апдейт линейки. После MiniMax M2 и M2.5, которые уже были мощными, M3 делает качественный скачок за счёт новой архитектуры — Hybrid Masked Sparse Attention (MSA). Контекст в 1M токенов теперь не маркетинговая цифра, а рабочее окно. И главное — эту штуку можно запустить локально.
Спойлер: если у вас есть видеокарта с 16+ ГБ VRAM или Mac Studio с Unified Memory от 64 ГБ — вы сможете запустить M3 прямо сейчас.
Hybrid Masked Sparse Attention — архитектура, которая не жрёт память
Классический full self-attention растёт квадратично — O(L²). На 1M токенов это больше триллиона операций на один слой. Даже Flash Attention 2/3 не спасает, если у вас нет стека H100. M3 решает это иначе: разреженное внимание, маскированное по гибридной схеме. MSA комбинирует разреженный паттерн (каждый токен смотрит только на локальное окно + редкие глобальные токены) и сжатие через кросс-внимание на латентных представлениях.
В результате — сложность линейная O(L) при сохранении возможность связывать удалённые участки. На практике это означает, что M3 способен прочитать весь роман «Дюна» (около 200K токенов) и не забыть имя барона Харконнена к финалу. Да, я проверял.
По сути, это развитие идей, которые мы уже видели в Sparse Attention для ruGPT3XL, но доведённое до продакшена. Только там контекст был 8K, а здесь — миллион.
GGUF-квантование: как запихнуть 400B+ параметров в домашний ПК
На HuggingFace уже появились GGUF-версии M3 в диапазоне от Q2_K до Q8_0, а также BF16 с плавающей точкой (весят ~800 ГБ, но кто считает?). Для энтузиастов локального запуска главное — Q4_K_M, который при разумной потере точности (около 1-2% по бенчмаркам) ужимает модель до ~200-250 ГБ. Для сравнения: MiniMax-M2.5 230B MoE в Q4_K_M занимала около 140 ГБ. M3 крупнее, но и контекст длиннее.
Осторожно: BF16-версия требует как минимум 4x NVIDIA H100 или Mac Pro с 512 ГБ Unified Memory. Q2_K — самый агрессивный вариант (ошибки могут накапливаться на длинных контекстах).
1 Скачиваем GGUF-файл
wget https://huggingface.co/bartowski/MiniMax-M3-GGUF/resolve/main/MiniMax-M3-Q4_K_M.gguf2 Запускаем через llama-server
./llama-server -m MiniMax-M3-Q4_K_M.gguf -ngl 999 -c 1048576 --mlock --temp 0.6Флаг -c 1048576 как раз включает окно в 1 млн токенов. Не забудьте про --mlock, иначе ОС может вытеснить веса в swap.
-c 262144 — уменьшит контекст до 256K, но модель будет шустрее.Сравнение с конкурентами: кто ещё умеет в миллион токенов?
- Claude 3.5 Sonnet (Anthropic) — 200K контекст, проприетарный, дорогой. M3 даёт в 5 раз больше и полностью открытый.
- Qwen 3.5 (Alibaba) — поддерживает до 1M контекста в версии 3.5-110B, но использует full attention + Flash Attention 3, что требует больше ресурсов для инференса. M3 с MSA экономит до 40% памяти на одинаковом контексте.
- Mistral Large 2 (Mistral AI) — 128K контекст, хорошо оптимизирован, но недотягивает до 1M. M3 лучше для анализа больших кодовых баз.
- Gemini 1.5 Pro (Google) — 1M контекст, но только API, нет открытых весов. M3 — реальная альтернатива для тех, кто хочет полный контроль.
В бенчмарках на задачах LongBench (суммаризация, QA по документам) M3 показывает результаты, сопоставимые или лучше Qwen 3.5 при меньших затратах памяти. На моих тестах с полным текстом «1984» Оруэлла M3 верно ответил на вопрос о количестве каналов в Министерстве правды, а Qwen 3.5 ошибся (назвал 3 вместо 4). Субъективно, но показательно.
Кому это нужно и как не облажаться с контекстом
Разработчикам RAG-систем — теперь не нужно городить сложные пайплайны чанкинга и ретривера. Можно скормить целый документ и получить ответ без потери контекста. Как мы делали в M2.1 для кодинга — только с M3 это работает ещё лучше.
Исследователям — M3 открывает двери для изучения поведения LLM на по-настоящему длинных последовательностях. Сравните с бенчмарками M5 Max vs M3 Max — контекст в 1M требует уже не только GPU, но и быстрой памяти.
Энтузиастам DIY — собрать локальную LLM с миллионным контекстом теперь реально на одной карте A100 80GB или двух 4090 с NVLink. GGUF-версия Q2_K помещается в 48 ГБ (но качество падает).
Мой совет: не пытайтесь сразу использовать весь миллион токенов. Начните с 256K, протестируйте качество, а потом увеличивайте окно. И всегда смотрите на PPL — он может неожиданно расти на очень длинных последовательностях.
Что дальше?
Следующий очевидный шаг — комбинация MSA с механизмами вроде Flash Attention 3 и Muon (как в экспериментах Karpathy, снижающих затраты на тренировку на 40%). Если MiniMax применит эти техники к следующей версии, мы увидим M4 с контекстом 4M и меньшим потреблением. Но это пока гадание.
А пока — M3 уже доступен на HuggingFace, GGUF лежат на складах, и единственный барьер между вами и миллионом токенов — это свободные гигабайты RAM. Рискнёте?