Зачем ещё один голосовой ассистент, если их уже миллион?
Потому что этот работает вообще без интернета. Вообще. Никаких запросов к OpenAI, никакого Google Assistant, никаких облачных API. Только ваш Mac, микрофон и 600 миллионов параметров модели Qwen3-0.6B, которые шепчут вам ответы прямо на устройстве.
Проект Hey Lama — это не очередной wrapper над ChatGPT API. Это полноценный стек: распознавание речи, языковая модель, синтез речи. Всё локально. Всё на Python. Всё с открытым кодом.
На 26.01.2026 Qwen3-0.6B остаётся одной из самых сбалансированных маленьких моделей для локального запуска — достаточно умная для диалога, достаточно маленькая для MacBook Air.
Что внутри этой штуки?
Архитектура Hey Lama напоминает слоёный пирог, где каждый слой — отдельный компонент:
| Компонент | Что делает | Альтернативы |
|---|---|---|
| Speech-to-Text (STT) | Превращает вашу речь в текст | Whisper (тяжёлый), Vosk (старый), Silero (русский акцент) |
| Qwen3-0.6B | Мозг ассистента, генерирует ответы | Phi-3-mini, Llama 3.2 3B, Gemma 2 2B |
| KittenTTS | Превращает текст обратно в речь | Piper TTS, Coqui TTS, MimikaStudio для клонирования голоса |
Самое интересное здесь — KittenTTS. Это не просто синтезатор речи, а система, которая умеет говорить с интонацией. Не тем роботизированным голосом из 90-х, а почти человеческим. Почти.
Почему именно Qwen3-0.6B, а не что-то другое?
Вот цифры на 2026 год: Qwen3-0.6B весит около 1.2 ГБ в формате GGUF. На Mac M3 с 16 ГБ оперативки она загружается за 3-4 секунды. Потребляет примерно 2-3 Вт в простое, 8-10 Вт в активном режиме.
Для сравнения: Claude Code на Mac M3 использует более тяжёлые модели, но и возможностей у него больше. Hey Lama — это про минимализм. Про «работает здесь и сейчас без лишних телодвижений».
Как это собрать на своём Mac?
Не буду врать — процесс не для тех, кто боится терминала. Но если вы уже собирали голосового ассистента на LangChain и Ollama, то здесь будет знакомо.
1 Клонируем и устанавливаем
Первое, что нужно сделать — получить код. Проект живёт на GitHub, и это не просто набор скриптов, а вполне структурированное приложение.
2 Качаем модели
Самая неприятная часть — загрузка моделей. Qwen3-0.6B в GGUF формате, веса для KittenTTS, конфигурационные файлы. В сумме около 2.5 ГБ данных.
Здесь есть нюанс: автор использует специфическую версию Qwen3, квантованную под определённые задачи. Не пытайтесь заменить её на случайную модель из интернета — не сработает.
Внимание: на Mac с ARM (M1, M2, M3) могут быть проблемы с совместимостью некоторых библиотек. Особенно с аудио-стеком. Если что-то не работает — проверьте, установлен ли у вас PortAudio через Homebrew.
3 Настраиваем окружение
Python 3.10 или выше. Виртуальное окружение обязательно — иначе засорите систему пакетами. Все зависимости чётко прописаны в requirements.txt.
Самое сложное здесь — заставить работать аудио-компоненты на macOS. Системные разрешения, доступ к микрофону, драйверы... Иногда кажется, что Apple специально усложняет жизнь разработчикам мультимедийных приложений.
А что там с производительностью?
Тесты на MacBook Pro M3 Pro (2025):
- Распознавание речи: 200-400 мс (зависит от длины фразы)
- Генерация ответа Qwen3: 1.5-3 секунды
- Синтез речи KittenTTS: 800 мс - 1.2 секунды
- Общее время от «привет» до ответа: 3-5 секунд
Не мгновенно, но и не вечность. Для полностью локального решения — вполне приемлемо. Особенно если учесть, что Speekium и другие локальные ассистенты показывают схожие результаты.
Чем Hey Lama отличается от других локальных ассистентов?
Давайте сравним с тем, что уже есть на рынке:
| Проект | Модель | TTS | Особенность |
|---|---|---|---|
| Hey Lama | Qwen3-0.6B | KittenTTS | Полный стек, Raspberry Pi цель |
| n8n ассистент | Любая через Ollama | LiveKit или сторонний | Интеграция с workflow, инструменты |
| RTX 3090 стек | Крупные модели (7B+) | Coqui TTS или Piper | Максимальная производительность |
Главное преимущество Hey Lama — его цель. Это не просто «запустим на Mac», а «запустим на чём угодно, даже на Raspberry Pi». Такой подход меняет правила игры.
Кому подойдёт этот проект?
Трём типам людей:
- Параноикам приватности — тем, кто не доверяет облакам даже с шифрованием. Здесь данные вообще никуда не уходят.
- Любителям железа — тем, кто получает кайф от запуска ИИ на нетрадиционном оборудовании. Raspberry Pi с голосовым ассистентом? Дайте два.
- Разработчикам-исследователям — тем, кто хочет понять, как устроен полный стек голосового ИИ от начала до конца. Код чистый, архитектура прозрачная.
Если же вам нужен готовый продукт «установил и работает» — посмотрите в сторону MimikaStudio или коммерческих решений. Hey Lama — это проект для тех, кто не боится покопаться в конфигах и почитать логи.
Что не так с Hey Lama? (спойлер: много чего)
Идеальных проектов не бывает. Вот что бесит в Hey Lama:
- Документация — её почти нет. Приходится разбираться по исходникам.
- Настройка голоса — KittenTTS хорош, но настроить его под себя сложно. Хочется что-то вроде LuxTTS с простым интерфейсом.
- Контекст — модель не помнит, о чём вы говорили пять минут назад. Нужно допиливать систему памяти.
- Инструменты — ассистент только болтает. Не может отправить email, не может создать календарное событие. В отличие от решения на n8n, где инструменты появляются автоматически.
Но вот что интересно: все эти недостатки — возможности для форков и улучшений. Проект открытый, архитектура модульная. Хотите добавить память? Пожалуйста. Хотите интеграцию с календарём? Вперёд.
А что с Raspberry Pi? Работает или нет?
На момент 26.01.2026 — в процессе. Автор публикует обновления в репозитории, но стабильной версии для Pi пока нет.
Проблема в производительности. Raspberry Pi 5 — мощная штука для своих размеров, но 600 миллионов параметров — это всё ещё много. Особенно когда нужно ещё и аудио обрабатывать в реальном времени.
Стоит ли тратить время на этот проект?
Если вы хотите просто поговорить с компьютером — нет. Установите ChatGPT Voice и не мучайтесь.
Но если вам интересно, как устроен голосовой ИИ изнутри... Если вы хотите собрать что-то своё на основе этого кода... Если вам принципиально, чтобы ваш ассистент работал даже в самолёте над океаном...
Тогда да. Стоит.
Hey Lama — это не готовый продукт. Это конструктор. И как любой конструктор, он интересен не результатом, а процессом сборки. Вы узнаете, как работает пайплайн от звуковой волны до синтезированного ответа. Поймёте, где bottlenecks в таких системах. Увидите, как можно оптимизировать модель под конкретное железо.
И кто знает — может быть, именно ваш форк Hey Lama запустится на следующем поколении Raspberry Pi и изменит то, как мы взаимодействуем с техникой. Без облаков. Без подписок. Без компромиссов с приватностью.
Просто ваш голос и железо, которое его понимает.