Вы говорите в телефон: "Так, надо бы завтра с утра позвонить клиенту насчет договора, и купить молока по дороге, и отправить отчет Маше до пятницы". Через секунду в Todoist появляются три аккуратные задачи с датами, проектами и метками. Это не магия. Это Todoist Ramble – их новая фича, которая заставляет голосовой ввод наконец-то работать.
Что такое Ramble и почему это не просто диктофон
Ramble – это режим внутри приложения Todoist, запускаемый долгим нажатием на кнопку микрофона. Вы не просто диктуете текст задачи. Вы говорите естественно, с паузами, исправлениями, списками и контекстом. Система в реальном времени транскрибирует аудио, а затем вычленяет из потока сознания отдельные action items.
Двигатель под капотом: Gemini 2.5 Flash Live и Vertex AI
Вся магия работает на стеке Google. Когда вы говорите, аудиопоток летит не просто в какой-то общий облачный STT (Speech-to-Text). Он идет прямиком в Gemini 2.5 Flash Live – специальную конфигурацию модели, оптимизированную для потоковой обработки аудио с минимальной задержкой.
Почему Flash Live, а не обычная Gemini 2.0 Pro или Ultra? Потому что здесь критична latency. Модель должна успевать обрабатывать аудио кусочками и почти сразу возвращать текст, чтобы у пользователя создавалось ощущение живого диалога. Как это работает в Gemini Live для поиска.
Архитектура выглядит примерно так:
- Аудиозахват и сегментация: Приложение разбивает ваш голос на перекрывающиеся чанки (например, по 500 мс).
- Реалтайм-транскрипция: Gemini 2.5 Flash Live конвертирует аудио в текст, сохраняя пунктуацию и даже отмечая filler words ("эээ", "ну").
- Анализ и парсинг: Накопленный текстовый буфер (последние 10-15 секунд речи) отправляется в более мощную LLM – ту же Gemini 2.5 Flash, но уже в не-потоковом режиме – с четким промптом: "Извлеки задачи".
- Структурирование и API-вызов: LLM возвращает JSON с массивом задач, каждая из которых содержит название, дату, проект, приоритет. Этот JSON летит в Todoist API через OAuth-токен пользователя.
Важный нюанс 2026 года: Google давно объединил все AI-сервисы под брендом Vertex AI. Поэтому в документации вы не найдете "Gemini API". Всё работает через Vertex AI с тарификацией за 1 тыс. токенов. Flash Live стоит дешевле, чем Flash, но дороже, чем старый PaLM 2.
Сердце системы: промпт, который всё понимает
Весь интеллект Ramble – в промпте, который передается LLM на этапе парсинга. Doist (создатели Todoist) его, конечно, не публикуют, но по поведению системы можно восстановить логику.
Промпт делает несколько вещей:
- Определяет домен: Указывает, что это менеджер задач Todoist с его конкретной структурой (проекты, разделы, метки, приоритеты p1-p4).
- Инструктует извлекать несколько сущностей из одного предложения: "Позвонить клиенту и отправить отчет" → две задачи.
- Разрешает неоднозначности через контекст: Если вы сказали "завтра" в пятницу вечером, система понимает, что это понедельник (если в настройках указан рабочий календарь).
- Игнорирует мусор: Не превращает в задачи риторические вопросы или размышления ("интересно, а стоит ли мне...").
Примерный промпт (реконструкция):
Ты – парсер естественной речи для менеджера задач Todoist. Пользователь диктовал свои мысли. Извлеки все конкретные action items (задачи).
Для каждой задачи определи:
- название (кратко, глагол + объект)
- дату и время (если упомянуто: сегодня, завтра, в пятницу, через 2 дня, в 18:00). Используй текущую дату: {{current_date}}.
- проект (если упомянут "работа", "личное", "покупки" – маппинг на проекты пользователя)
- приоритет (p1 для срочного, p4 для неважного)
- метки (извлеки ключевые слова как теги)
Игнорируй размышления, вопросы и общие фразы.
Вход: "{{user_input}}"
Верни строго в JSON: {"tasks": [{"content": "...", "due": {"date": "...", "time": "..."}, "project": "...", "priority": ..., "labels": [...]}]}
Чем Ramble круче аналогов? Сравниваем
| Инструмент / Подход | Как работает | Проблемы |
|---|---|---|
| Todoist Ramble | Gemini 2.5 Flash Live (транскрипция) + Gemini 2.5 Flash (парсинг) + интеграция с API | Требует сеть, платный API, только в Todoist |
| Обычный голосовой ввод в Todoist | Базовая транскрипция (например, от Google) + простой парсинг дат | Не понимает списки, контекст, сложные формулировки |
| Siri/Google Assistant + интеграция | Запрос → обработанный интент → создание задачи через Shortcuts или IFTTT | Жесткий синтаксис, нет обработки свободной речи |
| Локальный ассистент на одной машине | Whisper (STT) + локальная LLM (Llama 3.2, Qwen2.5) + скрипт для Todoist | Задержки, требует мощное железо, сложная настройка |
| Специализированные диктофоны с ИИ вроде Wispr Flow | Запись → облачная обработка → отправка в избранные приложения | Дорогое устройство, проприетарная экосистема |
Главное преимущество Ramble – бесшовность. Не нужно переключаться между приложениями, всё происходит внутри знакомого интерфейса Todoist. И это не отдельное устройство, которое можно забыть дома.
Можно ли повторить такое самому? Да, но...
Технически – да. Функционально – нет смысла, если вы не хотите потратить несколько вечеров и долларов. Но для образовательных целей или кастомного workflow – почему нет.
Вот что нужно:
- Аудиозахват: Любая библиотека (в браузере – Web Audio API, на десктопе – PyAudio).
- Потоковая транскрипция: API Gemini 2.5 Flash Live через Vertex AI. Альтернатива – Whisper Real-time, но он менее точен для русского с акцентом.
- LLM для парсинга: Тот же Gemini 2.5 Flash (не Live) через Vertex AI или, для экономии, локальная модель на видеокарте.
- Интеграция с API: Todoist API (бесплатно) или API любого другого таск-менеджера.
Стоимость: На конец января 2026 года транскрипция Gemini 2.5 Flash Live стоит $0.006 за минуту аудио. Парсинг текста – $0.075 за 1 млн токенов на входе. В среднем одна минута вашего "рамбла" обойдется в 1-2 цента. Для личного использования – копейки. Для массового продукта – уже считаем.
Самая большая сложность – не техническая интеграция, а качество промпта. Нужно долго тестировать и донастраивать LLM, чтобы она правильно понимала именно ваш стиль речи, ваши проекты и привычки.
Кому эта штука реально нужна?
Ramble – не для всех. Если вы аккуратно планируете задачи с клавиатуры раз в день, он вам не пригодится. Его аудитория:
- Люди в движении: Кто много за рулем, гуляет или готовит, и мысли приходят именно тогда, когда руки заняты.
- Мозг, который думает списками: Кто вываливает поток сознания, а потом разбирает завалы. Ramble – это первичная сортировка мусора.
- Профессии с внезапными инсайтами: Писатели, исследователи, разработчики, которым нужно мгновенно зафиксировать идею, прежде чем она улетучится.
- Те, кто ненавидит тайпеть на телефоне: Всё просто.
Если же вы из тех, кто даже голосовые сообщения ненавидит, то Ramble будет раздражать. Потому что он требует доверия. Доверия к тому, что система правильно поймёт и разложит по полочкам. А она иногда ошибается. И тогда вы тратите больше времени на исправление, чем сэкономили.
Попробуйте, если вы уже в экосистеме Todoist. Если нет – возможно, будущее за устройствами, которые вообще обходятся без экрана. Но пока что лучший способ записать мысль – это всё ещё ручка и бумага. Просто ни у кого их нет под рукой.