Зачем тащить GPT в тостер? Или как 7MB модель меняет embedded AI
Представьте, что вы запускаете языковую модель на микроконтроллере за 2 доллара. Без кулеров, без гигабайтов оперативки, даже без блока floating-point операций. Звучит как шутка? На 23.03.2026 это уже реальность благодаря 7MB бинарной Mamba LLM.
Эта модель – не просто очередная квантованная версия чего-то большого. Это архитектурный хак, где все веса – бинарные (-1 или 1), а вместо трансформеров используется state space model (SSM) Mamba последней ревизии. Результат: 7 мегабайт, которые работают на чистом интенте и складывании битов.
Что внутри? Бинарность, Mamba и никакого float
Архитектура взяла от Mamba-3 (последней стабильной версии на 2026 год) только самое необходимое: SSM-ядро для работы с последовательностями и механизм селективности. Но все плотные слои – бинарные. Это значит, что forward pass – это essentially bitwise операции и целочисленное сложение.
Почему это важно для микроконтроллеров? У большинства Cortex-M0+/M3 нет FPU. Эмуляция float'ов убивает скорость и память. Здесь же все операции – 8-bit или 16-bit integer. Мы уже писали про inference engine на чистом C, но там хоть были float'ы. Тут – чистая целочисленная математика.
Не ждите от этой модели чудес reasoning'а. Она обучена на TinyStories и может генерировать простенькие сказки или классифицировать команды. Для AGI нужно смотреть в сторону Bitterbot AI, но там и размер другой, и требования к железу.
С чем сравнить? Альтернативы, которые просят больше
Когда речь заходит о маленьких моделях для edge, все сразу вспоминают TinyLlama (1.1B параметров) или MobileLLM. Но они требуют хотя бы 32-bit float операции. Даже 4-битное квантование не спасает – деквантование всё равно нужно.
| Модель | Размер | Требует FPU? | Где работает |
|---|---|---|---|
| 7MB Binary Mamba | 7 MB | Нет | Cortex-M0+, браузер via WASM |
| BitMamba-2-1B | ~200 MB | Частично | Raspberry Pi, телефоны |
| TinyLlama (q4) | ~350 MB | Да | Сервер, мощные SBC |
| Bitterbot-15M | 15 MB | Нет (int8) | Микроконтроллеры |
Ближайший конкурент – BitMamba-2-1B с 1.58 бит на вес. Но она в 30 раз больше и требует хоть какого-то буфера для промежуточных активаций. Наша 7MB модель помещается в L2 кеш многих микроконтроллеров.
Где это уже работает? От тостера до браузера
Сценарий первый: умный дом. Микроконтроллер на Cortex-M4 (без FPU) слушает команды через дешевый микрофон, локально распознает intent без облака. Никаких задержек, никакой передачи данных. Потребление – милливатты.
Сценарий второй: браузер. Скомпилированная в WASM модель работает прямо на странице. Никаких серверных вызовов, полная приватность. Технологии вроде MLC показали, что это возможно, но они таскали за собой рантайм и флоаты. Здесь – чистый WebAssembly с integer ops.
Кому это нужно? (Спойлер: не всем)
Если вы делаете AI-агента для Raspberry Pi, берите что-то посерьезнее. Эта модель – для крайнего edge: датчики, простейшие контроллеры, устройства с батарейным питанием на годы.
- Разработчики embedded-систем, которые устали от bare-metal инференса с гигабайтными моделями.
- Стартапы в IoT, где важна энергоэффективность и локальная обработка данных.
- Фронтенд-разработчики, которые хотят добавить AI в браузерное приложение без серверной части.
- Исследователи, изучающие пределы квантования и архитектурные трюки для малых моделей.
А вот если вам нужна сложная логика и цепочки reasoning'а, присмотритесь к рекурсивным SSM. Но готовьтесь к падению производительности.
Что в итоге? Микроконтроллеры получили своего GPT-zero
7MB бинарная Mamba LLM – это proof-of-concept, что языковые модели могут быть дешевыми и доступными. Не в плане денег, а в плане требований к железу. Это открывает двери для AI в устройствах, где раньше и мечтать не могли: от детских игрушек до промышленных датчиков.
Главный урок на 2026 год: чтобы засунуть AI куда угодно, нужно отказаться от float'ов и трансформеров. Бинарные веса и state space models – пока самый короткий путь. А дальше – больше. Скоро увидим модели размером с Lora-адаптер, но с пониманием контекста.
Модель open-source, но для продакшена на микроконтроллерах вам придется писать свой инференс-движок или использовать специализированные менеджеры вроде Bird's Nest. Готовых решений под все платформы пока нет.
Так что, если вы все еще думаете, что AI – это только дата-центры и видеокарты, присмотритесь к микроконтроллеру на своем столе. Возможно, он уже думает.