Todoist Ramble: голосовой AI на Gemini 2.5 Flash Live - обзор и архитектура | AiManual
AiManual Logo Ai / Manual.
22 Янв 2026 Инструмент

Todoist Ramble: Как работает голосовой AI на Gemini 2.5 Flash Live и можно ли его повторить

Разбираем архитектуру Todoist Ramble: как Gemini 2.5 Flash Live через Vertex AI превращает бормотание в структурированные задачи. Промпты, стоимость и можно ли

Вы говорите в телефон: "Так, надо бы завтра с утра позвонить клиенту насчет договора, и купить молока по дороге, и отправить отчет Маше до пятницы". Через секунду в Todoist появляются три аккуратные задачи с датами, проектами и метками. Это не магия. Это Todoist Ramble – их новая фича, которая заставляет голосовой ввод наконец-то работать.

Что такое Ramble и почему это не просто диктофон

Ramble – это режим внутри приложения Todoist, запускаемый долгим нажатием на кнопку микрофона. Вы не просто диктуете текст задачи. Вы говорите естественно, с паузами, исправлениями, списками и контекстом. Система в реальном времени транскрибирует аудио, а затем вычленяет из потока сознания отдельные action items.

💡
Ключевое отличие от старого голосового ввода – понимание намерения. Раньше вы говорили "Задача на завтра в 10 утра: совещание с командой", и это буквально становилось названием задачи. Теперь можно сказать "Завтра в 10 утра совещание с командой, не забудь про презентацию", и система сама выставит дату и время, а "презентацию" может вынести в подзадачу или комментарий.

Двигатель под капотом: Gemini 2.5 Flash Live и Vertex AI

Вся магия работает на стеке Google. Когда вы говорите, аудиопоток летит не просто в какой-то общий облачный STT (Speech-to-Text). Он идет прямиком в Gemini 2.5 Flash Live – специальную конфигурацию модели, оптимизированную для потоковой обработки аудио с минимальной задержкой.

Почему Flash Live, а не обычная Gemini 2.0 Pro или Ultra? Потому что здесь критична latency. Модель должна успевать обрабатывать аудио кусочками и почти сразу возвращать текст, чтобы у пользователя создавалось ощущение живого диалога. Как это работает в Gemini Live для поиска.

Архитектура выглядит примерно так:

  1. Аудиозахват и сегментация: Приложение разбивает ваш голос на перекрывающиеся чанки (например, по 500 мс).
  2. Реалтайм-транскрипция: Gemini 2.5 Flash Live конвертирует аудио в текст, сохраняя пунктуацию и даже отмечая filler words ("эээ", "ну").
  3. Анализ и парсинг: Накопленный текстовый буфер (последние 10-15 секунд речи) отправляется в более мощную LLM – ту же Gemini 2.5 Flash, но уже в не-потоковом режиме – с четким промптом: "Извлеки задачи".
  4. Структурирование и API-вызов: LLM возвращает JSON с массивом задач, каждая из которых содержит название, дату, проект, приоритет. Этот JSON летит в Todoist API через OAuth-токен пользователя.

Важный нюанс 2026 года: Google давно объединил все AI-сервисы под брендом Vertex AI. Поэтому в документации вы не найдете "Gemini API". Всё работает через Vertex AI с тарификацией за 1 тыс. токенов. Flash Live стоит дешевле, чем Flash, но дороже, чем старый PaLM 2.

Сердце системы: промпт, который всё понимает

Весь интеллект Ramble – в промпте, который передается LLM на этапе парсинга. Doist (создатели Todoist) его, конечно, не публикуют, но по поведению системы можно восстановить логику.

Промпт делает несколько вещей:

  • Определяет домен: Указывает, что это менеджер задач Todoist с его конкретной структурой (проекты, разделы, метки, приоритеты p1-p4).
  • Инструктует извлекать несколько сущностей из одного предложения: "Позвонить клиенту и отправить отчет" → две задачи.
  • Разрешает неоднозначности через контекст: Если вы сказали "завтра" в пятницу вечером, система понимает, что это понедельник (если в настройках указан рабочий календарь).
  • Игнорирует мусор: Не превращает в задачи риторические вопросы или размышления ("интересно, а стоит ли мне...").

Примерный промпт (реконструкция):

Ты – парсер естественной речи для менеджера задач Todoist. Пользователь диктовал свои мысли. Извлеки все конкретные action items (задачи).

Для каждой задачи определи:
- название (кратко, глагол + объект)
- дату и время (если упомянуто: сегодня, завтра, в пятницу, через 2 дня, в 18:00). Используй текущую дату: {{current_date}}.
- проект (если упомянут "работа", "личное", "покупки" – маппинг на проекты пользователя)
- приоритет (p1 для срочного, p4 для неважного)
- метки (извлеки ключевые слова как теги)

Игнорируй размышления, вопросы и общие фразы.

Вход: "{{user_input}}"

Верни строго в JSON: {"tasks": [{"content": "...", "due": {"date": "...", "time": "..."}, "project": "...", "priority": ..., "labels": [...]}]}

Чем Ramble круче аналогов? Сравниваем

Инструмент / Подход Как работает Проблемы
Todoist Ramble Gemini 2.5 Flash Live (транскрипция) + Gemini 2.5 Flash (парсинг) + интеграция с API Требует сеть, платный API, только в Todoist
Обычный голосовой ввод в Todoist Базовая транскрипция (например, от Google) + простой парсинг дат Не понимает списки, контекст, сложные формулировки
Siri/Google Assistant + интеграция Запрос → обработанный интент → создание задачи через Shortcuts или IFTTT Жесткий синтаксис, нет обработки свободной речи
Локальный ассистент на одной машине Whisper (STT) + локальная LLM (Llama 3.2, Qwen2.5) + скрипт для Todoist Задержки, требует мощное железо, сложная настройка
Специализированные диктофоны с ИИ вроде Wispr Flow Запись → облачная обработка → отправка в избранные приложения Дорогое устройство, проприетарная экосистема

Главное преимущество Ramble – бесшовность. Не нужно переключаться между приложениями, всё происходит внутри знакомого интерфейса Todoist. И это не отдельное устройство, которое можно забыть дома.

Можно ли повторить такое самому? Да, но...

Технически – да. Функционально – нет смысла, если вы не хотите потратить несколько вечеров и долларов. Но для образовательных целей или кастомного workflow – почему нет.

Вот что нужно:

  1. Аудиозахват: Любая библиотека (в браузере – Web Audio API, на десктопе – PyAudio).
  2. Потоковая транскрипция: API Gemini 2.5 Flash Live через Vertex AI. Альтернатива – Whisper Real-time, но он менее точен для русского с акцентом.
  3. LLM для парсинга: Тот же Gemini 2.5 Flash (не Live) через Vertex AI или, для экономии, локальная модель на видеокарте.
  4. Интеграция с API: Todoist API (бесплатно) или API любого другого таск-менеджера.

Стоимость: На конец января 2026 года транскрипция Gemini 2.5 Flash Live стоит $0.006 за минуту аудио. Парсинг текста – $0.075 за 1 млн токенов на входе. В среднем одна минута вашего "рамбла" обойдется в 1-2 цента. Для личного использования – копейки. Для массового продукта – уже считаем.

Самая большая сложность – не техническая интеграция, а качество промпта. Нужно долго тестировать и донастраивать LLM, чтобы она правильно понимала именно ваш стиль речи, ваши проекты и привычки.

Кому эта штука реально нужна?

Ramble – не для всех. Если вы аккуратно планируете задачи с клавиатуры раз в день, он вам не пригодится. Его аудитория:

  • Люди в движении: Кто много за рулем, гуляет или готовит, и мысли приходят именно тогда, когда руки заняты.
  • Мозг, который думает списками: Кто вываливает поток сознания, а потом разбирает завалы. Ramble – это первичная сортировка мусора.
  • Профессии с внезапными инсайтами: Писатели, исследователи, разработчики, которым нужно мгновенно зафиксировать идею, прежде чем она улетучится.
  • Те, кто ненавидит тайпеть на телефоне: Всё просто.

Если же вы из тех, кто даже голосовые сообщения ненавидит, то Ramble будет раздражать. Потому что он требует доверия. Доверия к тому, что система правильно поймёт и разложит по полочкам. А она иногда ошибается. И тогда вы тратите больше времени на исправление, чем сэкономили.

Попробуйте, если вы уже в экосистеме Todoist. Если нет – возможно, будущее за устройствами, которые вообще обходятся без экрана. Но пока что лучший способ записать мысль – это всё ещё ручка и бумага. Просто ни у кого их нет под рукой.