Мультимодальный RAG в Amazon Bedrock: поиск по видео и аудио в 2026 | AiManual
AiManual Logo Ai / Manual.
20 Янв 2026 Инструмент

Amazon Bedrock с мультимодальным RAG: поиск по видео и аудио без танцев с бубном

Amazon Bedrock запустил нативные мультимодальные эмбеддинги. Ищем по видео и аудио без кастомных пайплайнов. Примеры и сравнение с альтернативами.

Бесплатный сыр бывает. Особенно в управляемых сервисах AWS

До января 2026 года сделать поиск по видеофайлу было как собрать мебель из IKEA без инструкции. Whisper для транскрипции, отдельная модель для эмбеддингов текста, кастомный пайплайн для извлечения кадров, еще одна модель для vision-эмбеддингов. Потом все это склеить, нормализовать и надеяться, что не перепутал порядок сборки.

Amazon Bedrock взял и выкатил функцию мультимодальных эмбеддингов в Titan Multimodal Embeddings v2 (анонсирована в конце 2025, полностью доступна с января 2026). Теперь можно загрузить MP4, MP3 или JPEG - и сразу получить векторное представление. Без промежуточных шагов. Без своего кода для обработки медиа. Без головной боли с синхронизацией модальностей.

💡
Titan Multimodal Embeddings v2 на 20.01.2026 поддерживает: видео (MP4, MOV, AVI до 5 минут), аудио (MP3, WAV, FLAC), изображения (JPEG, PNG, WebP) и текст. Максимальный размер файла - 50 МБ. Эмбеддинги возвращаются в формате float32, размерность 1024.

Что умеет этот титан? Список без маркетинговой воды

Функциональность выглядит так, будто инженеры AWS прочитали все жалобы разработчиков на Reddit и просто реализовали каждую:

  • Нативные мультимодальные эмбеддинги: Один API-вызов для любого типа контента. Больше не нужно определять тип файла и выбирать пайплайн.
  • Временная сегментация для видео: Автоматически разбивает видео на сегменты по 5 секунд и генерирует эмбеддинг для каждого. Ключевые слова в промпте: "сцена с дракой", "момент, когда главный герой плачет".
  • Аудио-транскрипция + эмбеддинг в одном флаконе: Возвращает и текст, и семантическое представление. Полезно для поиска по подкастам, где важно не только что сказали, но как сказали (тон, эмоция).
  • Кросс-модальный поиск: Запрос "найди моменты, где звучит грустная музыка" работает по видеофайлам. Модель понимает семантические связи между модальностями.
  • Интеграция с Knowledge Bases for Bedrock: Загружаешь медиафайлы в S3, настраиваешь векторную БД (Pinecone, OpenSearch) - и получаешь готовый RAG endpoint.

Цена на 20.01.2026: $0.0008 за 1K токенов для эмбеддингов. Для видео считаются "визуальные токены" (примерно 100 токенов в секунду). 10-минутное видео обойдется в ~$0.48. Дешевле, чем платить за отдельные сервисы транскрипции и эмбеддингов.

Альтернативы? Есть. Но они требуют больше крови

Пока Bedrock не было, приходилось выкручиваться. Вот что использовали до 2026 года и что осталось альтернативами сейчас:

Инструмент Плюсы Минусы Когда выбирать вместо Bedrock
Локальный пайплайн (Whisper + Ollama + ChromaDB) Полная приватность, нет платы за API, полный контроль Нужна GPU, время на настройку, нет единого эмбеддинга для всех модальностей Когда данные нельзя выносить в облако. Или когда бюджет API-вызовов превышает стоимость RTX 4090.
Google Vertex AI Multimodal RAG Интеграция с Gemini 2.0, хорошее качество для сложных запросов Сложнее API, дороже (Gemini Flash 1M context стоит $0.375 за 1M токенов), меньше регионов Уже используешь Google Cloud и нужна максимальная точность поиска
Azure AI Vision + OpenAI GPT-4o для мультимодальных ответов, хорошая документация Нужно комбинировать несколько сервисов, цена складывается, сложнее мониторить Компания завязана на Microsoft стеке, нужна интеграция с Power BI

Локальные решения вроде пайплайна на RTX 2060 еще живы, но требуют времени на поддержку. Каждый месяц выходит новая модель - нужно обновлять, переобучать, тестировать.

Пример из реальной жизни: поиск по записям совещаний

До 2026 года: скачиваешь Zoom запись, запускаешь Whisper локально (15 минут), получаешь JSON с таймстеппами, разбиваешь на чанки, генерируешь эмбеддинги через text-embedding модель (еще 10 минут), загружаешь в векторную БД. Потом ищешь "момент, где Иван предложил увеличить бюджет".

Сейчас с Bedrock:

import boto3
from datetime import datetime

client = boto3.client('bedrock-runtime', region_name='us-east-1')

def index_meeting_video(video_s3_uri):
    # Загружаем видео напрямую из S3
    response = client.invoke_model(
        modelId='amazon.titan-embed-multimodal-v2:0',
        body={
            'inputVideo': {'s3Uri': video_s3_uri},
            'embeddingConfig': {
                'outputEmbeddingLength': 1024,
                'segmentDurationSeconds': 5  # Разбиваем на 5-секундные сегменты
            }
        }
    )
    
    # Получаем эмбеддинги для каждого сегмента
    result = json.loads(response['body'].read())
    segments = result['videoSegments']  # Массив с таймстеппами и эмбеддингами
    
    # Сохраняем в векторную БД
    for segment in segments:
        store_in_vector_db(
            embedding=segment['embedding'],
            metadata={
                'start_time': segment['startTime'],
                'end_time': segment['endTime'],
                'video_uri': video_s3_uri
            }
        )

# Поиск по видео
query = "момент, где показывают график продаж за 2025 год"
# Генерируем эмбеддинг для текстового запроса той же моделью
query_embedding = client.invoke_model(
    modelId='amazon.titan-embed-multimodal-v2:0',
    body={'inputText': query}
)
# Ищем похожие сегменты в векторной БД
results = vector_db.similarity_search(query_embedding, k=5)

Система найдет визуальные сегменты с графиками, даже если в аудиодорожке о них не говорили. Это и есть кросс-модальный поиск.

Где это сломается? (спойлер: в специфичных случаях)

Titan Multimodal Embeddings v2 обучен на общих данных. Если нужно искать по медицинским снимкам рентгена или анализировать спектрограммы звуковых атак в кибербезопасности - качество будет средним.

Проблемные сценарии:

  • Высокоспециализированные домены: Фотографии клеточных культур, аудиозаписи птичьих голосов для орнитологии, чертежи в CAD-форматах.
  • Требования к низкой латенции: Обработка видео в реальном времени (например, поиск по live-трансляции). Bedrock добавляет 2-3 секунды на обработку минуты видео.
  • Очень длинные видео: Ограничение в 5 минут на сегмент. Для фильмов нужно резать заранее или использовать другой подход.
  • Строгие compliance требования: Хоть AWS и имеет сертификаты, некоторые госструктуры требуют локального хранения всего пайплайна.

Для таких случаев придется возвращаться к кастомным пайплайнам или собирать локальную систему.

Кому подойдет Bedrock с мультимодальным RAG? Тест из 3 вопросов

Ответь да/нет:

  1. Твои данные - это записи встреч, обучающие видео, подкасты, фотографии продуктов?
  2. Нет ресурсов содержать ML-инженера, который будет обновлять локальные модели каждую неделю?
  3. Бюджет позволяет платить $0.5-2 за обработку часа видео?

Если два ответа "да" - Bedrock твой выбор. Если все три "нет" - смотри в сторону локальных мультимодальных моделей.

Особенно выигрывают:

  • Стартапы в EdTech: Поиск по библиотеке обучающих видео. "Покажи момент, где объясняют gradient descent"
  • Корпоративные медиаархивы: Все записи митапов за 5 лет становятся поискаемыми
  • E-commerce с видеообзорами: Покупатель ищет "как этот ноутбук открывается одной рукой" - получает таймкод
  • Юристы и консультанты: Поиск по записям консультаций с клиентами (с согласием, конечно)

Что будет дальше? Прогноз на 2026-2027

AWS не остановится на Titan v2. По слухам (которые ходят на re:Invent 2025), в разработке:

  • Поддержка live-стримов для реального времени
  • Fine-tuning мультимодальных эмбеддингов под домен заказчика
  • Интеграция с AWS MediaConvert для автоматической обработки больших архивов
  • "Холодные" эмбеддинги - предрасчитанные для популярных видео на YouTube (представь поиск по всему YouTube через Bedrock)

Но главный тренд 2026 года - не новые фичи, а удешевление. Конкуренция с открытыми мультимодальными моделями заставит AWS снижать цены. Ожидаю, что к концу 2026 стоимость упадет в 2-3 раза.

Совет напоследок: не бросайся переписывать работающие пайплайны. Заведи тестовый аккаунт AWS, обработай 100 часов видео через Bedrock и посчитай ROI. Если экономия времени разработчиков перекрывает стоимость API - мигрируй постепенно, начиная с новых проектов.

А если все еще хочешь поковыряться в локальных решениях - посмотри как собрать RAG для видео за 15 минут. Но честно предупреждаю: через год поддержки этого кода ты будешь жалеть, что не выбрал управляемый сервис.