Hey Lama: локальный голосовой ассистент на Mac с Qwen3-0.6B и KittenTTS | AiManual
AiManual Logo Ai / Manual.
26 Янв 2026 Инструмент

Hey Lama: как собрать полностью локального голосового ассистента на Mac с Raspberry Pi AI

Пошаговый разбор проекта Hey Lama — полностью оффлайн голосового ассистента на Mac с Qwen3-0.6B, KittenTTS и Raspberry Pi AI. Код на GitHub.

Зачем ещё один голосовой ассистент, если их уже миллион?

Потому что этот работает вообще без интернета. Вообще. Никаких запросов к OpenAI, никакого Google Assistant, никаких облачных API. Только ваш Mac, микрофон и 600 миллионов параметров модели Qwen3-0.6B, которые шепчут вам ответы прямо на устройстве.

Проект Hey Lama — это не очередной wrapper над ChatGPT API. Это полноценный стек: распознавание речи, языковая модель, синтез речи. Всё локально. Всё на Python. Всё с открытым кодом.

На 26.01.2026 Qwen3-0.6B остаётся одной из самых сбалансированных маленьких моделей для локального запуска — достаточно умная для диалога, достаточно маленькая для MacBook Air.

Что внутри этой штуки?

Архитектура Hey Lama напоминает слоёный пирог, где каждый слой — отдельный компонент:

Компонент Что делает Альтернативы
Speech-to-Text (STT) Превращает вашу речь в текст Whisper (тяжёлый), Vosk (старый), Silero (русский акцент)
Qwen3-0.6B Мозг ассистента, генерирует ответы Phi-3-mini, Llama 3.2 3B, Gemma 2 2B
KittenTTS Превращает текст обратно в речь Piper TTS, Coqui TTS, MimikaStudio для клонирования голоса

Самое интересное здесь — KittenTTS. Это не просто синтезатор речи, а система, которая умеет говорить с интонацией. Не тем роботизированным голосом из 90-х, а почти человеческим. Почти.

Почему именно Qwen3-0.6B, а не что-то другое?

Вот цифры на 2026 год: Qwen3-0.6B весит около 1.2 ГБ в формате GGUF. На Mac M3 с 16 ГБ оперативки она загружается за 3-4 секунды. Потребляет примерно 2-3 Вт в простое, 8-10 Вт в активном режиме.

Для сравнения: Claude Code на Mac M3 использует более тяжёлые модели, но и возможностей у него больше. Hey Lama — это про минимализм. Про «работает здесь и сейчас без лишних телодвижений».

💡
Автор проекта заявляет о планах запустить всё это на Raspberry Pi 5. Если у него получится — это будет самый энергоэффективный голосовой ассистент в истории. Представьте: устройство размером с колоду карт, которое понимает речь и отвечает голосом. Без облаков. Без подписок.

Как это собрать на своём Mac?

Не буду врать — процесс не для тех, кто боится терминала. Но если вы уже собирали голосового ассистента на LangChain и Ollama, то здесь будет знакомо.

1 Клонируем и устанавливаем

Первое, что нужно сделать — получить код. Проект живёт на GitHub, и это не просто набор скриптов, а вполне структурированное приложение.

2 Качаем модели

Самая неприятная часть — загрузка моделей. Qwen3-0.6B в GGUF формате, веса для KittenTTS, конфигурационные файлы. В сумме около 2.5 ГБ данных.

Здесь есть нюанс: автор использует специфическую версию Qwen3, квантованную под определённые задачи. Не пытайтесь заменить её на случайную модель из интернета — не сработает.

Внимание: на Mac с ARM (M1, M2, M3) могут быть проблемы с совместимостью некоторых библиотек. Особенно с аудио-стеком. Если что-то не работает — проверьте, установлен ли у вас PortAudio через Homebrew.

3 Настраиваем окружение

Python 3.10 или выше. Виртуальное окружение обязательно — иначе засорите систему пакетами. Все зависимости чётко прописаны в requirements.txt.

Самое сложное здесь — заставить работать аудио-компоненты на macOS. Системные разрешения, доступ к микрофону, драйверы... Иногда кажется, что Apple специально усложняет жизнь разработчикам мультимедийных приложений.

А что там с производительностью?

Тесты на MacBook Pro M3 Pro (2025):

  • Распознавание речи: 200-400 мс (зависит от длины фразы)
  • Генерация ответа Qwen3: 1.5-3 секунды
  • Синтез речи KittenTTS: 800 мс - 1.2 секунды
  • Общее время от «привет» до ответа: 3-5 секунд

Не мгновенно, но и не вечность. Для полностью локального решения — вполне приемлемо. Особенно если учесть, что Speekium и другие локальные ассистенты показывают схожие результаты.

Чем Hey Lama отличается от других локальных ассистентов?

Давайте сравним с тем, что уже есть на рынке:

Проект Модель TTS Особенность
Hey Lama Qwen3-0.6B KittenTTS Полный стек, Raspberry Pi цель
n8n ассистент Любая через Ollama LiveKit или сторонний Интеграция с workflow, инструменты
RTX 3090 стек Крупные модели (7B+) Coqui TTS или Piper Максимальная производительность

Главное преимущество Hey Lama — его цель. Это не просто «запустим на Mac», а «запустим на чём угодно, даже на Raspberry Pi». Такой подход меняет правила игры.

Кому подойдёт этот проект?

Трём типам людей:

  1. Параноикам приватности — тем, кто не доверяет облакам даже с шифрованием. Здесь данные вообще никуда не уходят.
  2. Любителям железа — тем, кто получает кайф от запуска ИИ на нетрадиционном оборудовании. Raspberry Pi с голосовым ассистентом? Дайте два.
  3. Разработчикам-исследователям — тем, кто хочет понять, как устроен полный стек голосового ИИ от начала до конца. Код чистый, архитектура прозрачная.

Если же вам нужен готовый продукт «установил и работает» — посмотрите в сторону MimikaStudio или коммерческих решений. Hey Lama — это проект для тех, кто не боится покопаться в конфигах и почитать логи.

Что не так с Hey Lama? (спойлер: много чего)

Идеальных проектов не бывает. Вот что бесит в Hey Lama:

  • Документация — её почти нет. Приходится разбираться по исходникам.
  • Настройка голоса — KittenTTS хорош, но настроить его под себя сложно. Хочется что-то вроде LuxTTS с простым интерфейсом.
  • Контекст — модель не помнит, о чём вы говорили пять минут назад. Нужно допиливать систему памяти.
  • Инструменты — ассистент только болтает. Не может отправить email, не может создать календарное событие. В отличие от решения на n8n, где инструменты появляются автоматически.

Но вот что интересно: все эти недостатки — возможности для форков и улучшений. Проект открытый, архитектура модульная. Хотите добавить память? Пожалуйста. Хотите интеграцию с календарём? Вперёд.

А что с Raspberry Pi? Работает или нет?

На момент 26.01.2026 — в процессе. Автор публикует обновления в репозитории, но стабильной версии для Pi пока нет.

Проблема в производительности. Raspberry Pi 5 — мощная штука для своих размеров, но 600 миллионов параметров — это всё ещё много. Особенно когда нужно ещё и аудио обрабатывать в реальном времени.

💡
Если проект действительно заработает на Raspberry Pi, это откроет дверь в мир полностью автономных голосовых интерфейсов. Представьте умный дом, где каждый выключатель имеет свой локальный ИИ, который понимает команды без облака. Или автомобильный компьютер, который работает даже без интернета в горах.

Стоит ли тратить время на этот проект?

Если вы хотите просто поговорить с компьютером — нет. Установите ChatGPT Voice и не мучайтесь.

Но если вам интересно, как устроен голосовой ИИ изнутри... Если вы хотите собрать что-то своё на основе этого кода... Если вам принципиально, чтобы ваш ассистент работал даже в самолёте над океаном...

Тогда да. Стоит.

Hey Lama — это не готовый продукт. Это конструктор. И как любой конструктор, он интересен не результатом, а процессом сборки. Вы узнаете, как работает пайплайн от звуковой волны до синтезированного ответа. Поймёте, где bottlenecks в таких системах. Увидите, как можно оптимизировать модель под конкретное железо.

И кто знает — может быть, именно ваш форк Hey Lama запустится на следующем поколении Raspberry Pi и изменит то, как мы взаимодействуем с техникой. Без облаков. Без подписок. Без компромиссов с приватностью.

Просто ваш голос и железо, которое его понимает.