Зачем тащить GPT в тостер? Или как 7MB модель меняет embedded AI

Представьте, что вы запускаете языковую модель на микроконтроллере за 2 доллара. Без кулеров, без гигабайтов оперативки, даже без блока floating-point операций. Звучит как шутка? На 23.03.2026 это уже реальность благодаря 7MB бинарной Mamba LLM.

Эта модель – не просто очередная квантованная версия чего-то большого. Это архитектурный хак, где все веса – бинарные (-1 или 1), а вместо трансформеров используется state space model (SSM) Mamba последней ревизии. Результат: 7 мегабайт, которые работают на чистом интенте и складывании битов.

💡

Бинарные веса – это не 1-битное квантование в привычном смысле. Здесь вся математика линейных слоев заменена на знаковые операции (sign(x) * weight), где weight ∈ {-1, +1}. Это убивает точность, но для TinyStories и простых инструкций хватает.

Что внутри? Бинарность, Mamba и никакого float

Архитектура взяла от Mamba-3 (последней стабильной версии на 2026 год) только самое необходимое: SSM-ядро для работы с последовательностями и механизм селективности. Но все плотные слои – бинарные. Это значит, что forward pass – это essentially bitwise операции и целочисленное сложение.

Почему это важно для микроконтроллеров? У большинства Cortex-M0+/M3 нет FPU. Эмуляция float'ов убивает скорость и память. Здесь же все операции – 8-bit или 16-bit integer. Мы уже писали про inference engine на чистом C, но там хоть были float'ы. Тут – чистая целочисленная математика.

Не ждите от этой модели чудес reasoning'а. Она обучена на TinyStories и может генерировать простенькие сказки или классифицировать команды. Для AGI нужно смотреть в сторону Bitterbot AI, но там и размер другой, и требования к железу.

С чем сравнить? Альтернативы, которые просят больше

Когда речь заходит о маленьких моделях для edge, все сразу вспоминают TinyLlama (1.1B параметров) или MobileLLM. Но они требуют хотя бы 32-bit float операции. Даже 4-битное квантование не спасает – деквантование всё равно нужно.

Модель	Размер	Требует FPU?	Где работает
7MB Binary Mamba	7 MB	Нет	Cortex-M0+, браузер via WASM
BitMamba-2-1B	~200 MB	Частично	Raspberry Pi, телефоны
TinyLlama (q4)	~350 MB	Да	Сервер, мощные SBC
Bitterbot-15M	15 MB	Нет (int8)	Микроконтроллеры

Ближайший конкурент – BitMamba-2-1B с 1.58 бит на вес. Но она в 30 раз больше и требует хоть какого-то буфера для промежуточных активаций. Наша 7MB модель помещается в L2 кеш многих микроконтроллеров.

Где это уже работает? От тостера до браузера

Сценарий первый: умный дом. Микроконтроллер на Cortex-M4 (без FPU) слушает команды через дешевый микрофон, локально распознает intent без облака. Никаких задержек, никакой передачи данных. Потребление – милливатты.

Сценарий второй: браузер. Скомпилированная в WASM модель работает прямо на странице. Никаких серверных вызовов, полная приватность. Технологии вроде MLC показали, что это возможно, но они таскали за собой рантайм и флоаты. Здесь – чистый WebAssembly с integer ops.

🚀

Попробовать модель в браузере можно на официальном демо. Загрузка – менее 10 секунд даже на 3G, инференс – 30 токенов в секунду на среднем телефоне. Это не GPT-4, но для чат-бота на сайте поддержки хватит.

Кому это нужно? (Спойлер: не всем)

Если вы делаете AI-агента для Raspberry Pi, берите что-то посерьезнее. Эта модель – для крайнего edge: датчики, простейшие контроллеры, устройства с батарейным питанием на годы.

Разработчики embedded-систем, которые устали от bare-metal инференса с гигабайтными моделями.
Стартапы в IoT, где важна энергоэффективность и локальная обработка данных.
Фронтенд-разработчики, которые хотят добавить AI в браузерное приложение без серверной части.
Исследователи, изучающие пределы квантования и архитектурные трюки для малых моделей.

А вот если вам нужна сложная логика и цепочки reasoning'а, присмотритесь к рекурсивным SSM. Но готовьтесь к падению производительности.

Что в итоге? Микроконтроллеры получили своего GPT-zero

7MB бинарная Mamba LLM – это proof-of-concept, что языковые модели могут быть дешевыми и доступными. Не в плане денег, а в плане требований к железу. Это открывает двери для AI в устройствах, где раньше и мечтать не могли: от детских игрушек до промышленных датчиков.

Главный урок на 2026 год: чтобы засунуть AI куда угодно, нужно отказаться от float'ов и трансформеров. Бинарные веса и state space models – пока самый короткий путь. А дальше – больше. Скоро увидим модели размером с Lora-адаптер, но с пониманием контекста.

Модель open-source, но для продакшена на микроконтроллерах вам придется писать свой инференс-движок или использовать специализированные менеджеры вроде Bird's Nest. Готовых решений под все платформы пока нет.

Так что, если вы все еще думаете, что AI – это только дата-центры и видеокарты, присмотритесь к микроконтроллеру на своем столе. Возможно, он уже думает.

Подписаться на канал

7MB бинарная Mamba LLM: когда AI помещается в микроконтроллер и не просит floating-point