Open-Toys: локальная AI-игрушка на Qwen3-TTS и MLX | Гайд | AiManual
AiManual Logo Ai / Manual.
16 Мар 2026 Инструмент

Open-Toys: как собрать локальную storytelling-игрушку для детей на Qwen3-TTS и MLX для Apple Silicon

Пошаговый гайд по созданию оффлайн storytelling-игрушки для детей с использованием Qwen3-TTS, MLX и ESP32. Приватность и открытый код.

Кукла, которая шпионит: зачем нам локальные AI-игрушки

Представьте игрушку, которая рассказывает сказки. Но каждое слово вашего ребенка улетает в облако неизвестной компании. Звучит как паранойя? А теперь откройте руководство к любой «умной» игрушке из 2025 года. 99% из них требуют Wi-Fi и аккаунт. Данные детей - новый нефть, и корпорации добывают их через милых плюшевых мишек.

Open-Toys - ответ инженеров-родителей. Это полностью оффлайн устройство, где нейросети работают на вашем Mac, а игрушка лишь кнопка с динамиком. Никакого облака, никаких подписок. Только вы, ребенок и сказка, сгенерированная локально.

💡
Актуально на март 2026: Qwen3-TTS v2.5 - последняя версия модели от Alibaba Cloud, которая поддерживает эмоциональную окраску и работает в 4 раза быстрее на Apple Silicon благодаря оптимизациям MLX. Если вы читали наш материал про ускорение Qwen3-TTS, то знаете, что теперь синтез речи на Mac занимает миллисекунды.

Qwen3-TTS и MLX: когда Mac начинает рассказывать сказки

Сердце системы - Qwen3-TTS, но не та, что тянет из облака, а квантованная версия, запущенная через MLX - фреймворк Apple для машинного обучения на их чипах. В теории вы можете использовать любую TTS, но Qwen3-TTS v2.5 дает баланс между качеством и скоростью. На M3 Max она генерирует речь в реальном времени, с паузами только для драматического эффекта.

Почему MLX, а не PyTorch? Потому что Apple не просто так вкладывается в этот стек. С января 2026 года MLX поддерживает смешанное квантование Q4_K_M для всех моделей семейства Qwen, что сокращает размер модели в 4 раза без потери в натуральности голоса. Об этом мы подробно писали в гайде по запуску Qwen3-TTS на iPhone.

Внимание: если у вас Mac на Intel, забудьте про MLX. Он работает только на Apple Silicon. Но вы можете использовать Qwen3-TTS.cpp с CPU - см. нашу статью про ускорение на CPU.

ESP32: мозг игрушки за $5

Аппаратная часть - это ESP32, который я ненавижу и люблю одновременно. Ненавижу за то, что иногда он решает перезагрузиться посреди сказки про Колобка. Люблю за то, что он стоит копейки и имеет Wi-Fi/Bluetooth. В Open-Toys ESP32 работает как клиент: получает от Mac аудиопоток по Wi-Fi и проигрывает через усилитель и динамик.

Почему не Raspberry Pi? Потому что Pi - это уже мини-компьютер, а нам нужен простой микроконтроллер. ESP32 справляется с аудиостримингом, а вся магия AI происходит на Mac. Кстати, если вы хотите полностью автономное устройство, посмотрите на проект Hey Lama, где Raspberry Pi запускает модели локально.

Собираем пазл: от Python-скрипта до нажатия кнопки

Процесс сборки делится на три части: софт на Mac, прошивка ESP32 и корпус. Я пропущу корпус - тут можно использовать что угодно, от старой радиоуправляемой машинки до распечатанного на 3D-принтере домика.

1Настраиваем Mac как TTS-сервер

Устанавливаем MLX и загружаем квантованную модель Qwen3-TTS v2.5. Используем репо mlx-examples от Apple, но с нашими патчами для поддержки русского языка. Важно: модель нужно квантовать самостоятельно, если хотите максимальной скорости. Готовые квантованные версии есть на Hugging Face, но они могут быть устаревшими.

2Пишем прошивку для ESP32

ESP32 подключается к Wi-Fi вашей домашней сети и слушает сокет на Mac. Когда ребенок нажимает кнопку на игрушке, ESP32 отправляет запрос на Mac, Mac генерирует аудио через Qwen3-TTS и отправляет обратно потоком. ESP32 проигрывает его. Код прошивки написан на C++ с использованием библиотеки AudioKit.

3Интеграция: заставляем их говорить друг с другом

Самое сложное - отладка. Mac должен быть всегда в сети, иначе игрушка замолкает. Мы используем простой протокол на основе WebSockets. Альтернатива - Bluetooth, но с Wi-Fi проще, особенно если у вас большой дом. Для тестирования аудиопотока советую сначала запустить Serpentine TTS, чтобы убедиться, что синтез работает без задержек.

А что если...: альтернативы, которые не взлетели

Перед Open-Toys я перепробовал кучу вариантов. Edge-TTS от Microsoft - облачный, и голос звучит как робот из 90-х. Kitten TTS - локальная, но слишком маленькая модель, не хватает выразительности для сказок. Kitten TTS V0.8 хороша для Raspberry Pi, но на Mac мы можем позволить себе более тяжелую модель.

Аппаратные альтернативы: Raspberry Pi Zero 2W. Он мощнее ESP32, но дороже и потребляет больше энергии. Если вы хотите, чтобы и AI работала прямо на игрушке, без Mac, тогда Pi - ваш выбор. Но готовьтесь к паузам в 10 секунд между репликами.

ПлатформаСтоимостьЗадержкаПриватность
Open-Toys (Mac + ESP32)$5 (ESP32) + Mac~200msПолная
Облачная игрушка (типа Amazon Echo)$50+~500msНулевая
Raspberry Pi с Kitten TTS$25~2000msПолная

Дети нажимают кнопку, а игрушка говорит: магия в действии

Мой пятилетний сын не понимает, что такое MLX или квантование. Он видит только медвежонка с большой красной кнопкой на животе. Нажимает - медвежонок рассказывает историю про дракона. Нажимает снова - продолжает, запоминая контекст. Это кажется волшебством, но под капотом - Generative Agents и простая база данных на SQLite.

Сценарии использования: сказки на ночь, изучение иностранных языков (переключаем модель на английскую версию), даже простые диалоги. Игрушка не заменяет родителя, но дает 20 минут тишины, пока ребенок увлечен историей.

Не повторяй моих ошибок: три косяка, которые съели выходные

  • Не экономьте на динамике. Китайский динамик за $1 дает звук как из консервной банки. Берите хотя бы на 2W с пассивным радиатором.
  • Не используйте Wi-Fi 2.4 ГГц в перегруженной сети. Аудио будет рваться. Перейдите на 5 ГГц или выделите отдельный канал.
  • Не забывайте про управление питанием. ESP32 жрет батарейки за пару часов. Добавьте схему глубокого сна, которая будит микроконтроллер только при нажатии кнопки.

Кому это вообще нужно: отцы-гики, энтузиасты приватности и учителя

Open-Toys - не продукт, а проект. Он для тех, кто готов потратить два вечера на пайку и отладку. Для отцов, которые хотят показать детям, что технологии - это не только потребление. Для учителей в малокомплектных школах, где нет бюджета на дорогие образовательные игрушки.

Если вы ищете готовое решение из коробки - это не оно. Но если вы хотите контролировать каждый байт данных и иметь возможность модифицировать игрушку под себя, тогда Open-Toys ваш выбор. И да, весь код открыт на GitHub. (Ссылку не привожу, чтобы не нарушать анонимность, но найти его легко по названию.)

💡
Прогноз на 2027: с выходом Apple M4 Neural Engine и новых квантованных моделей, подобные устройства станут массовыми. Но пока только энтузиасты собирают их в гаражах. Начните сейчас, чтобы через год не покупать аналог за $300.

Подписаться на канал