Почему стандартные аудиогиды — это прошлый век

Вы заходите в зал с импрессионистами. Нажимаете на экспонате номер 42. Голос диктора зачитывает текст, который вы уже слышали в трех других музеях. Факты сухие, интонация монотонная, контекст нулевой. Вы — не ребенок, не искусствовед, не турист впервые в Париже. Вы — конкретный человек с конкретными интересами. Но гид об этом не знает. Или не хочет знать.

Проблема не в отсутствии технологий. Проблема в подходе. Стандартные аудиогиды — это записанные треки. Фиксированные. Статичные. Мертвые. Они не адаптируются под ваш темп, не отвечают на вопросы, не рассказывают про технику мазка, если вы художник. Не упоминают исторический контекст, если вы историк. Они просто вещают в пустоту.

Ключевой недостаток: отсутствие персонализации и интерактивности. Посетитель пассивен. Он получает информацию, но не взаимодействует с ней. Это лекция, а не диалог.

Решение: живой гид из нейросетей

Представьте систему, которая в реальном времени генерирует рассказ об экспонате. Учитывает ваши предыдущие вопросы, ваш профиль (указанный при входе: «интересуюсь историей техники», «люблю анекдоты про художников», «пришел с детьми»). Может ответить на уточняющий вопрос. И делает это человеческим, выразительным голосом.

Это не фантастика. На 2026 год локальные языковые модели (LLM) и системы синтеза речи (TTS) достигли качества, достаточного для таких задач. И самое главное — их можно запустить на оборудовании, которое поместится в серверную комнату музея. Без ежемесячных счетов от OpenAI.

💡

Фишка не в том, чтобы заменить человека. Фишка в том, чтобы дать каждому посетителю персонального гида. Такого, который обычно стоит 100 евро в час. Бесплатно. И для всей семьи сразу.

Архитектура: что крутится под капотом

Система состоит из нескольких независимых модулей. Это важно для масштабирования и отказоустойчивости. Если TTS упадет, LLM продолжит отвечать текстом. Если LLM задумается, кэш промптов выдаст заранее сгенерированные варианты.

Модуль	Технология (актуально на 03.02.2026)	Зачем нужен
Ядро (LLM)	Qwen2.5-32B-Instruct, Llama 3.2 90B, или (для легкости) Phi-4	Генерация текстовых ответов, анализ контекста, поддержка диалога
Синтез речи (TTS)	Qwen3-TTS (через vLLM-Omni), или Coqui TTS 2.0	Преобразование текста от LLM в естественную речь
Распознавание (ASR) - опционально	VibeVoice-ASR, Whisper.cpp	Для голосовых вопросов от посетителя
Шумоподавление	Локальные нейросети из статьи «Забей на RNNoise»	Очистка аудиовхода в шумном зале музея
Оркестратор	FastAPI + Redis (для кэша и очередей)	Управление потоком данных между модулями

Поток данных выглядит так:

Посетитель наводит телефон (или берет устройство музея) на QR-код у экспоната. Или говорит: «Расскажи про эту картину».
Система определяет ID экспоната и загружает его «досье» из базы: название, автор, год, техника, базовое описание, интересные факты.
Оркестратор формирует промпт, добавляя туда профиль пользователя и историю диалога.
Промпт отправляется в LLM. Если для этого экспоната и профиля уже есть сгенерированный ответ в кэше — берется оттуда (экономит время и ресурсы).
Текст ответа идет в TTS-модуль. Здесь важно: для разных типов контента можно использовать разные голоса. Историческую справку — голосом «профессора», забавный факт — более легким и молодым. Qwen3-TTS в vLLM-Omni как раз позволяет быстро переключать стили.
Аудиофайл или поток отправляется на устройство пользователя.

1 Собираем инфраструктуру: железо и софт

Не нужно суперкомпьютера. Для музея среднего размера хватит одной серверной стойки. Или даже мощного ПК.

LLM-сервер: Система с 2x RTX 6000 Ada (или аналогичными картами с 48 ГБ памяти). Запускаем модель в формате GGUF через llama.cpp или используем TensorRT-LLM для максимальной скорости. Для 32B-параметровой модели этого достаточно для 10-20 параллельных посетителей с ответом за 2-3 секунды.
TTS-сервер: Отдельная машина с GPU (можно попроще, например RTX 4090). TTS не требует таких мощностей, как LLM, но любит быстрые ядра.
Оркестратор: Можно на том же сервере, что и LLM, но лучше вынести на отдельный CPU-сервер для стабильности.

Все общается по внутренней сети. Внешний интернет не обязателен после первоначальной загрузки моделей. Это плюс для безопасности и работы в подвалах старых зданий.

2 Готовим «досье» экспонатов: чем кормить LLM

Самая важная часть. LLM — не искусствовед. Ей нужно дать структурированные данные. Не просто «Мона Лиза, Леонардо да Винчи». А разбивку по полям.

{
  "exhibit_id": "MONA_LISA_001",
  "title": "Мона Лиза (Джоконда)",
  "author": "Леонардо да Винчи",
  "year": "1503-1506",
  "technique": "Масло на тополевой доске",
  "dimensions": "77 × 53 см",
  "location": "Зал 6, Лувр",
  "key_facts": [
    "Одна из самых известных картин в мире",
    "Использована техника сфумато — мягкие тени без резких границ",
    "Украдена в 1911 году и найдена через 2 года"
  ],
  "anecdotes": [
    "Наполеон повесил картину в своей спальне",
    "В 1956 году картину облили кислотой, повредив нижнюю часть"
  ],
  "art_style_context": "Высокое Возрождение, переход к маньеризму",
  "technical_details": "Использовано более 30 слоев лака, что создает эффект глубины"
}

Чем полнее досье, тем интереснее будет рассказ. Можно добавить поля: «связи с другими экспонатами», «цитаты критиков», «современные интерпретации».

3 Пишем промпты: как заставить LLM говорить интересно

Вот где большинство проваливается. Дают LLM сухие факты и ждут увлекательной истории. Не выйдет. Промпт — это сценарий. Инструкция. Роль.

Как НЕ надо делать:

Расскажи про картину {title} авторства {author}.

Получите сухой пересказ википедии. Скучно.

Правильный промпт (шаблон):

Ты — эксперт-искусствовед в музее. Твоя задача — увлечь посетителя рассказом об экспонате. 
Используй только факты из досье ниже. Не выдумывай ничего. 

Профиль посетителя: {user_profile}
История диалога (последние 3 реплики): {history}

ДОСЬЕ ЭКСПОНАТА:
{exhibit_dossier}

ИНСТРУКЦИИ:
1. Начни с яркого, цепляющего вступления (1-2 предложения).
2. Расскажи ключевые факты, но не списком, а историей.
3. Если в профиле есть интерес к технике — сделай акцент на {technique} и {technical_details}.
4. Если в профиле есть отметка "с детьми" — добавь один забавный факт из {anecdotes} и объясни его просто.
5. Если посетитель уже спрашивал про схожие экспонаты — проведи параллель.
6. Закончи открытым вопросом, чтобы вовлечь в диалог (например, "Хотите узнать, почему реставраторы боятся этой картины?").
7. Длина ответа: 150-250 слов. Язык живой, не академический.

Твой рассказ:

Этот промпт делает несколько ключевых вещей:

Задает роль: LLM становится экспертом, а не просто справочником.
Ограничивает фантазию: «Только факты из досье» — критично, чтобы модель не начала сочинять про инопланетян.
Учитывает контекст: Профиль пользователя и история диалога делают ответ персонализированным.
Дает структуру: Не просто «расскажи», а конкретные пункты: начало, акценты, окончание.
Контролирует длину: 150-250 слов — это примерно 1-1.5 минуты аудио. Идеально для удержания внимания.

Для разных типов экспонатов — разные шаблоны промптов. Для картины — один, для древней амфоры — другой, для интерактивного экспоната — третий.

Лайфхак: Создайте 3-4 базовых шаблона промптов («стандартный», «для детей», «для экспертов», «краткая справка»). Генерируйте ответы для всех шаблонов заранее (ночью, когда музей закрыт) и кладите в кэш. При запросе посетителя — берете из кэша нужный вариант и слегка адаптируете под историю диалога. Это снизит нагрузку на LLM в пиковые часы.

Голос: почему TTS — это не просто озвучка

Можно взять самую продвинутую LLM, но если она будет говорить монотонным роботом — весь эффект пропадет. Современные open-source TTS системы на 2026 год, вроде Qwen3-TTS, дают качество, близкое к профессиональным дикторам. Но нужно настроить.

Разные голоса для разных контекстов: Основной рассказ — нейтральный, уверенный голос. Анекдот или интересный факт — голос с легкой улыбкой в интонации. Техническое объяснение — более медленный, четкий темп.
Эмоциональная окраска: Современные TTS умеют по тексту определять эмоцию и подстраивать интонацию. Слово «сенсация» будет сказано с другим оттенком, чем «трагедия». Нужно это разрешить в настройках.
Паузы: После ключевых фраз — небольшая пауза. Дает посетителю время осознать. Настраивается через SSML (Speech Synthesis Markup Language).


  Эта картина  настоящая загадка для искусствоведов.
  Обратите внимание на уголки губ.
  Улыбка Джоконды меняется в зависимости от того, под каким углом вы смотрите.

Такой разметкой вы управляете темпом, паузами, ударениями. TTS становится инструментом драматургии, а не просто конвертером текста в звук.

Диалог: когда посетитель хочет спросить

Следующий уровень — интерактивность. Посетитель говорит: «А почему она так одета?» или «Что у нее в руках?». Система должна понять вопрос, найти релевантную информацию в досье (или в общих знаниях LLM, но это рискованно) и дать ответ.

Здесь нужен модуль ASR (автоматического распознавания речи). VibeVoice-ASR — хороший вариант для локального развертывания. Важно поставить после него шумоподавитель, иначе в шумном зале система будет слышать «гул толпы» вместо вопросов.

Промпт для диалогового режима сложнее:

Ты в диалоге с посетителем музея. Только что рассказал об экспонате {title}. 
Посетитель спрашивает: "{user_question}"

ИНСТРУКЦИИ:
1. Ответь строго по теме вопроса.
2. Используй только факты из досье ниже. Если в досье нет ответа — честно скажи "К сожалению, у меня нет информации об этом". НЕ выдумывай.
3. Если вопрос требует глубоких специальных знаний за пределами досье — предложи посетителю обратиться к живому гиду или порекомендуй книгу (из списка рекомендованной литературы, если он есть в досье).
4. Держись в рамках 2-3 предложений. Не начинай новую лекцию.
5. В конце спроси, есть ли еще вопросы по этому экспонату.

ДОСЬЕ ЭКСПОНАТА:
{exhibit_dossier}

Жесткое ограничение «только факты из досье» защищает от галлюцинаций. Музей не может позволить себе, чтобы AI сообщил посетителю, что «Ван Гог отрезал ухо из-за любви к пиратам». Репутация дороже.

Развертывание и подводные камни

Собрать прототип — полдела. Запустить в реальном музее — другая история.

Латентность: Посетитель не будет ждать 10 секунд, пока LLM подумает и TTS сгенерирует речь. Цель — ответ за 2-3 секунды. Достигается кэшированием, оптимизированными моделями (GGUF q4), и быстрым TTS вроде Qwen3-TTS в vLLM-Omni.
Надежность: Система должна работать 12 часов в день без перезагрузок. Все модули — в Docker-контейнерах с health-check. Если LLM падает — оркестратор переключается на закэшированные ответы или упрощенную модель (например, Phi-4).
Контент-фильтр: LLM — неконтролируемая среда. Нужен пост-модерация сгенерированных текстов на предмет запрещенных тем или ошибок. Проще всего — заранее сгенерировать и проверить все варианты для основных профилей.
Оффлайн-работа: Музей может быть в подвале без интернета. Все модели и код должны работать локально. Это плюс open-source решений.

Что в итоге получает музей

Не просто «крутую технологию». А конкретные метрики:

Увеличение времени пребывания: Персонализированный рассказ увлекает. Люди слушают до конца, а не отключают через 30 секунд.
Повторные посещения: «В прошлый раз я слушал про технику, теперь хочу про исторический контекст». Система это помнит.
Сбор данных: Анонимная аналитика: какие экспонаты самые популярные, какие вопросы задают, какие факты интересуют. Бесценно для кураторов.
Экономия: Один раз инвестировать в сервер и разработку. Не платить ежемесячно за облачные API и не нанимать гидов на каждый язык.

Главное — это опыт посетителя. Из пассивного слушателя он становится активным участником диалога с искусством. Искусством, которое наконец-то заговорило с ним на его языке.

P.S. Если кажется, что это сложно — начните с малого. Возьмите один зал, 10 экспонатов, легкую модель Llama 3.2 8B и простой TTS. Соберите прототип за выходные. Покажите смотрителям. Их реакция будет лучшим мотиватором двигаться дальше. Потому что они устали отвечать на одни и те же вопросы. Им тоже нужен помощник.

Музейный гид, который не повторяется: как собрать персональный аудиогид на LLM и TTS