Gemma Vision: ИИ-ассистент для незрячих на Gemma 3n - обзор и реализация | AiManual
AiManual Logo Ai / Manual.
29 Дек 2025 Инструмент

Gemma Vision: как слепой брат помог создать ИИ-ассистента для незрячих на Gemma 3n

Как разработчик создал ИИ-ассистент для слепого брата с помощью Gemma 3n, камеры на груди и контроллера 8BitDo. Технический обзор победителя Kaggle.

История создания: от личной проблемы к технологическому решению

История Gemma Vision началась с личной ситуации: разработчик из Индии наблюдал, как его слепой брат сталкивается с ежедневными трудностями в навигации и распознавании объектов. Вместо того чтобы использовать готовые решения, он решил создать собственный ИИ-ассистент, который бы работал полностью на устройстве, без зависимости от интернета и с максимальной приватностью.

💡
Проект стал победителем конкурса Kaggle "Gemma 3n Hackathon", доказав, что даже небольшие команды могут создавать социально значимые решения с помощью современных ИИ-технологий.

Техническая архитектура: как работает Gemma Vision

Gemma Vision построен на трех ключевых компонентах: модели Gemma 3n для обработки естественного языка, компьютерного зрения через MediaPipe и аппаратной части с нестандартным подходом к взаимодействию.

1Аппаратная часть: камера на груди и геймпад

Вместо смартфона разработчик использовал камеру, закрепленную на груди пользователя, что обеспечивает естественный угол обзора и освобождает руки. Для управления ассистентом был адаптирован контроллер 8BitDo — его тактильные кнопки идеально подходят для незрячих пользователей.

КомпонентНазначениеПреимущества
Камера на грудиОсновной источник визуальной информацииЕстественный угол обзора, руки свободны
Контроллер 8BitDoУправление ассистентомТактильная обратная связь, простота использования
Gemma 3nОбработка запросов и анализ сценРаботает на устройстве, низкая задержка

2Программная часть: Flutter + MediaPipe + Gemma 3n

Интерфейс приложения написан на Flutter, что обеспечивает кроссплатформенность. Для компьютерного зрения используется MediaPipe — легковесная библиотека от Google, способная работать на мобильных устройствах. Ядро системы — модель Gemma 3n, оптимизированная для работы на edge-устройствах.

# Пример обработки изображения в Gemma Vision
import mediapipe as mp
from transformers import AutoModelForVision2Seq

# Инициализация модели Gemma 3n
model = AutoModelForVision2Seq.from_pretrained("google/gemma-3n-vision")

# Обработка изображения через MediaPipe
mp_hands = mp.solutions.hands
hands = mp_hands.Hands(min_detection_confidence=0.7)

# Анализ сцены и генерация описания
def describe_scene(image):
    # Детекция объектов
    results = hands.process(image)
    
    # Генерация текстового описания
    description = model.generate(
        image,
        prompt="Опиши, что видишь на изображении для незрячего человека"
    )
    return description

Ключевые возможности ассистента

  • Описание окружающей среды: Ассистент может описать, что находится перед пользователем — людей, объекты, текст
  • Навигационная помощь: Обнаружение препятствий, лестниц, дверей
  • Распознавание текста: Чтение вывесок, этикеток, документов
  • Идентификация объектов: Определение денежных купюр, продуктов, личных вещей
  • Голосовая обратная связь: Естественное голосовое описание сцен

Важное отличие от облачных решений: вся обработка происходит локально на устройстве. Это обеспечивает мгновенный отклик, работу без интернета и полную приватность — изображения никогда не покидают устройство пользователя.

Сравнение с альтернативными решениями

На рынке существует несколько приложений для помощи незрячим, но Gemma Vision предлагает уникальный подход:

РешениеАрхитектураПреимуществаНедостатки
Gemma VisionOn-device (Gemma 3n)Полная приватность, работа офлайнТребует совместимое устройство
Seeing AI (Microsoft)ОблачнаяМощные модели, регулярные обновленияТребует интернет, вопросы приватности
Be My EyesЧеловеческие волонтерыВысокая точность, человеческое общениеЗависимость от доступности волонтеров

Как и в случае с Claude Code для локальных LLM, ключевое преимущество Gemma Vision — независимость от облачных сервисов и интернет-соединения.

Практические примеры использования

Пример 1: Посещение магазина

Пользователь заходит в супермаркет. Gemma Vision через камеру на груди сканирует полки и голосом сообщает: "Справа от вас — молочные продукты. На полке на уровне глаз — молоко 2,5%, срок годности до 15 октября. Ниже — йогурты со скидкой 20%".

Пример 2: Навигация в помещении

В незнакомом офисе ассистент предупреждает: "Впереди три шага — стеклянная дверь. Слева от двери — табличка с надписью 'Конференц-зал'. Справа — лестница, ведущая наверх".

# Пример навигационной подсказки
def generate_navigation_hint(obstacles, text_elements):
    hints = []
    
    for obstacle in obstacles:
        if obstacle["type"] == "door":
            hints.append(f"Впереди {obstacle['distance']} шагов — дверь")
        elif obstacle["type"] == "stairs":
            hints.append(f"С {obstacle['position']} — лестница")
    
    for text in text_elements:
        if "выход" in text.lower() or "exit" in text.lower():
            hints.append(f"Надпись 'выход' расположена {text['position']}")
    
    return ". ".join(hints)

Технические требования и установка

Для запуска Gemma Vision потребуется:

  1. Устройство с поддержкой Gemma 3n (современный смартфон или одноплатный компьютер)
  2. Камера с разрешением не менее 1080p
  3. Контроллер 8BitDo (опционально, можно использовать голосовые команды)
  4. Установленные зависимости: Flutter, MediaPipe, трансформеры
# Клонирование репозитория проекта
git clone https://github.com/kaggle/gemma-vision-winner.git
cd gemma-vision-winner

# Установка зависимостей
pip install -r requirements.txt

# Установка Flutter зависимостей
flutter pub get

# Запуск приложения
flutter run --release
💡
Проект полностью открыт и доступен на Kaggle. Разработчики могут адаптировать его под свои нужды или использовать как основу для создания собственных решений помощи людям с ограниченными возможностями.

Кому подойдет Gemma Vision?

  • Незрячие и слабовидящие пользователи: Для повседневной навигации и получения информации об окружающем мире
  • Разработчики социальных проектов: Как готовое решение или основа для собственных разработок
  • Исследователи edge-ИИ: Интересный кейс использования on-device моделей в реальных условиях
  • Образовательные учреждения: Для обучения студентов созданию доступных технологий, подобно образовательным инициативам Google

Будущее проекта и возможности для развития

Разработчик планирует несколько улучшений:

  • Интеграция с умными домами для управления устройствами
  • Распознавание эмоций людей в общении
  • Поддержка большего количества языков
  • Оптимизация для работы на более слабых устройствах, аналогично тому, как FlaxeoUI оптимизирует генерацию изображений

Важный аспект развития — обеспечение прозрачности работы ИИ. Как и в инструментах проверки контента Gemini, пользователи должны понимать, насколько надежны предоставляемые ассистентом описания.

Заключение: технология с человеческим лицом

Gemma Vision демонстрирует, как современные ИИ-технологии могут решать реальные человеческие проблемы. Проект объединяет передовые разработки в области edge-ИИ с глубоким пониманием потребностей конечных пользователей. История создания — от личной проблемы брата до победы в международном конкурсе — вдохновляет на создание технологий, которые действительно меняют жизнь людей к лучшему.

Как и в случае с открытыми проектами вроде GoPublic, доступность кода и документации Gemma Vision позволяет сообществу развивать и улучшать решение, делая технологии помощи более доступными для всех.