Когда облако подводит, а навигатор молчит
Представьте: выходите из метро, а смартфон разрядился. Или зашли в подземный переход - и связь пропала. Для зрячего это досадная помеха. Для незрячего - ловушка. Классические голосовые ассистенты вроде того, что Ford планирует к 2028 году, работают через облако. Нет сети - нет помощи.
Именно эту проблему решил проект, о котором мало кто слышал вне узких кругов. Не корпоративный гигант, а команда энтузиастов, включая победителя Kaggle, создала устройство размером с пачку сигарет. Оно видит мир через камеру на груди и говорит с пользователем без единого запроса в облако. Все модели - локальные, легковесные, работающие на чипе за 50 долларов.
Сердце системы: Gemma 3n и её неожиданные способности
Основу взяли из открытого проекта Gemma Vision. Но не просто скопировали - переработали до неузнаваемости. Gemma 3n, выпущенная в конце 2025 года, изначально не затачивалась под задачи машинного зрения для слепых. Её обучали на общих датасетах.
"Мы взяли принципы из PhysicalAgent - заставили модель понимать физический мир без дорогого дообучения," - объясняет один из разработчиков. Фокус сместили с распознавания тысяч объектов на критически важные десятки: ступеньки, бордюры, двери, движущиеся машины, пешеходов.
Модель сжали до 1.2 ГБ (против исходных 8 ГБ) через квантование INT8 и призматическую дистилляцию. Точность упала на 7% в общих тестах, но в целевых сценариях - выросла на 15%. Потому что убрали шум.
Главная ошибка новичков: пытаться запихнуть в edge-устройство полноценную модель компьютерного зрения. На деле нужна не универсальность, а гиперспециализация. Слепому не нужно знать, что на витрине "картина импрессиониста". Ему нужно знать: "впереди стеклянная дверь, откройте осторожно".
Голос, который не перебивает: PersonaPlex в роли тактичного гида
Синтез речи - отдельная история. Ранние TTS-модели звучали как роботы из 90-х. Современные, вроде Qwen3 TTS из последнего обзора Hugging Face, весят гигабайты и требуют GPU.
Решение нашли в адаптации PersonaPlex от NVIDIA. Да, та самая full-duplex модель для диалогов. Её доработали под специфику: голос должен быть спокойным, негромким, прерываемым. Пользователь может в любой момент сказать "стоп" или задать вопрос - система обязана мгновенно замолчать.
"Мы убрали из модели всё, что связано с эмоциональными окрасками, интонациями вопроса, восклицаниями," - рассказывает лингвист проекта. "Голос стал монотонным, почти скучным. Но тестировщики-незрячие сказали: это идеально. Эмоции отвлекают. Чёткость - важнее."
Хитрости, о которых не пишут в статьях
1. Камера не на очках, а на груди. Почему? Очки двигаются с головой, картинка дергается. На груди - стабильнее. Да, обзор уже, но для навигации по тротуару хватает.
2. Два микрофона: один для пользователя, второй - направленный вперед. Улавливает звуки приближающихся машин, скрип тормозов, сигналы светофора для слепых. Аудиоданные смешиваются с визуальными - получается картина "глубже".
3. Тактильная обратная связь. Вибрация в кармане: короткая - "внимание", длинная - "опасность", пульсирующая - "поверни направо". Почему не только голос? В шумной улице слова не разобрать.
4. Работа с прозрачными препятствиями. Здесь помогла технология из LingBot-Depth. Не просто распознавание стекла, а оценка его прозрачности и расстояния. Стеклянная дверь в двух метрах - предупредить. В десяти - молчать.
| Компонент | Что использовали | Потребление памяти | Задержка |
|---|---|---|---|
| Модель зрения | Доработанная Gemma 3n-Vision | 1.2 ГБ | 90 мс |
| Модель речи | Упрощенная PersonaPlex-TTS | 800 МБ | 40 мс |
| Аудиоанализ | Кастомная YAMNet-архитектура | 50 МБ | 20 мс |
| Оркестратор | Микро-сервис на Rust | 10 МБ ОЗУ | 5 мс |
Почему это работает, а корпоративные проекты - буксовали
Microsoft и Google годами пытались сделать что-то подобное. У них были бюджеты, команды, данные. Но они пытались создать универсального помощника. Распознавать лица, читать вывески, определять эмоции прохожих. Получался цифровой Франкенштейн - огромный, медленный, требующий облака.
Эта команда пошла от обратного. Они взяли опыт победителя Kaggle и свели задачу к трем пунктам:
- Не упасть (обнаружить препятствия на земле и впереди)
- Не заблудиться (ориентация по ключевым точкам)
- Не попасть под машину (детекция транспорта и оценка его движения)
Всё. Никакого чтения меню в кафе, никакого определения достоинства банкнот. Фокус вместо ширины.
Интересный парадокс: пока гиганты вроде Microsoft учат AI понимать язык жестов (сложно, дорого, требует серверов), эта команда сделала систему, которая понимает только физические объекты. И это оказалось правильным выбором.
Батарея, цена и главный вопрос: почему это не в каждом магазине?
Устройство работает 8 часов на одной зарядке. Стоимость компонентов - около 300 долларов. При серийном производстве можно уложиться в 150-200. Дешевле смартфона.
Но массового производства нет. Причина - не технологическая, а бюрократическая. Устройство медицинского класса (помощь инвалидам) требует сертификации в каждой стране. Клинических испытаний. Страховок. Команда из пяти человек не потянет этот процесс.
"Мы выложили всю документацию в открытый доступ," - говорят разработчики. "Схемы, прошивки, инструкции по сборке. Пусть кто-то большой возьмет и доведет до ума."
Технически интересный момент: система не требует интернета вообще, но раз в месяц подключается к Wi-Fi для обновления моделей. Не через апдейты "в лоб", а через дифференциальные патчи размером 10-50 МБ. Модели дообучаются на анонимизированных данных со всех устройств.
Что дальше? Неочевидный тренд, который все пропустили
История этого проекта показывает тренд, который набирает силу в 2026 году: смерть универсальных AI-ассистентов. Рождение специализированных микро-помощников.
Зачем пытаться построить AI-монстра со всем функционалом, если можно сделать десяток узких устройств? Одно - для слепых. Второе - для глухих (тут как раз пригодился бы распознаватель жестов). Третье - для пожилых с деменцией.
Каждое - размером с брелок. Каждое - автономное. Каждое - дешевое.
Парадокс в том, что победители того самого Kaggle Challenge изначально не планировали создавать устройство. Они просто хотели доказать, что на Gemma 3n можно делать что-то полезное без облака. Получилось слишком хорошо.
Мой прогноз: через год появятся китайские клоны за 99 долларов. Через два - такие устройства будут выдавать в соцслужбах бесплатно. А через три - мы забудем, что когда-то считали нормальным, когда слепой человек не может выйти из дома без сопровождающего.
Технология готова. Осталось только перестать делать из AI игрушку для гиков и начать делать из него инструмент для реальных людей. Этот проект - первый шаг. Не самый громкий, но, возможно, самый важный.