ИИ против мошенников: создаем голосового бота-защитника | AiManual
AiManual Logo Ai / Manual.
25 Фев 2026 Гайд

Как создать ИИ-ассистента для борьбы с телефонными мошенниками: архитектура и пайплайн

Полный гайд по созданию ИИ-ассистента, который автоматически отвечает на звонки мошенников. Актуальная архитектура, выбор моделей на 2026 год и детальный пайпла

Проблема: телефонные мошенники стали умнее, а мы — нет

Звонок с незнакомого номера. Голос, полный фальшивой заботы, сообщает, что ваш счет заблокирован, родственник в беде или вы выиграли приз. Классика. Но сегодня мошенники используют сложные социальные инженерные сценарии, синтезированные голоса и автоматизированные системы для обзвона тысяч людей в час. Защитные приложения часто бессильны — они лишь блокируют номера из черных списков, которые меняются быстрее, чем вы успеваете обновить базу.

Проблема не в спаме, а в целенаправленном воздействии на психику. И именно здесь классические методы дают сбой. Нужен не фильтр, а противник, способный вести диалог, анализировать намерения и тратить время мошенника, вместо вашего. Это превращает их бизнес-модель из низкорисковой в убыточную.

Решение: голосовой ИИ-ассистент, который тратит их время

Система, которая автоматически принимает подозрительные звонки, ведет беседу, имитируя человека, и собирает информацию о тактике мошенников. Цель — не просто отбиться, а затянуть разговор, создать помехи в их работе и получить данные для анализа.

Философия проекта: если мошенник тратит 20 минут на разговор с ботом, он не дозвонится до реальной жертвы. Это действует эффективнее, чем молчаливая блокировка.

Архитектура: из чего состоит система

Не пытайтесь запихнуть все в один монолит. Система должна быть модульной, масштабируемой и построена вокруг событийного пайплайна. Вот ее ядро:

1 Прием и маршрутизация звонков

Вам нужен шлюз для телефонии (SIP, VoIP). Не изобретайте велосипед — используйте готовые решения вроде Asterisk, FreeSWITCH или облачные API (Twilio, Voximplant). Этот шлюз должен уметь:

  • Определять входящий номер и сверять его с черными/серыми списками (локальными и публичными).
  • Принимать решение: пропустить звонок к человеку или перехватить его ботом.
  • Создавать медиа-поток (аудио) и направлять его в следующий модуль — транскриптор.

Здесь же решается вопрос легальности. В некоторых регионах запись разговора без предупреждения незаконна. Ваш бот должен начинать диалог с четкого сообщения: "Это автоматический ассистент. Разговор записывается для анализа безопасности". Это часто отпугивает мошенников сразу.

2 Транскрипция в реальном времени

Здесь все упирается в скорость и точность. Вам нужна модель, которая преобразует аудиопоток в текст с минимальной задержкой (200-500 мс). На 2026 год золотым стандартом остаются доработанные версии OpenAI Whisper (например, Whisper 3.0 с поддержкой streaming) или специализированные коммерческие API, такие как Deepgram Nova-2 или Google Speech-to-Text с включенным режимом interim results.

💡
Не используйте офлайн-модели для транскрипции без мощного железа. Задержка в 2-3 секунды убьет естественность диалога. Лучше взять облачный API с оплатой за использование — вы платите только за время разговоров с мошенниками.

3 Анализ диалога и классификация

Сердце системы. Полученный текст передается в LLM (Large Language Model), которая выполняет три задачи:

  1. Определение намерения: это мошеннический звонок, легитимный звонок или что-то неопределенное?
  2. Извлечение сущностей: номера счетов, имена, названия организаций, которые упоминает собеседник.
  3. Генерация контекста для ответа: понимание сценария мошенника ("банк", "полиция", "техподдержка") и текущей стадии диалога.

Не стоит использовать одну гигантскую модель для всего. Разделите ответственность: легкая, быстрая модель (например, Gemini Nano или Phi-4) для классификации и извлечения сущностей, а мощная модель (GPT-4.5 Turbo, Claude 3.5 Sonnet) — для сложной логики ответа, если сценарий требует креатива. Это экономит деньги и снижает latency. Подробнее о тонкой настройке агентов читайте в нашем гайде про Agent Skills.

4 Генерация ответа

Самое интересное. LLM должна генерировать реплики, которые:

  • Соответствуют роли (пожилой человек, скептичный бизнесмен, растерянный пользователь).
  • Поддерживают диалог, задают уточняющие вопросы, чтобы затянуть время.
  • Не выдают себя за бота. Имитируют человеческие оговорки, паузы, эмоции.

Здесь критически важна системная инструкция (prompt). Она должна детально описывать личность бота, его цели и запреты (никогда не называть реальные данные). Ошибки в промпте приведут к тому, что бот либо быстро раскроется, либо, что хуже, начнет выдавать опасную информацию. Техники prompt injection, о которых мы писали в разборе Jailbreak SAFi агента, здесь тоже актуальны. Мошенник может попытаться сбить бота с толку.

5 Синтез речи

Сгенерированный текст нужно озвучить. Требования: естественность, скорость и управление интонацией. Используйте современные нейросетевые TTS (Text-to-Speech) модели: ElevenLabs, OpenAI Audio API (модель tts-2-hd) или открытые решения типа Coqui TTS. Важно добавить в аудио легкий шум, случайные паузы, помехи — идеально чистый голос звучит подозрительно.

6 Обратная связь и обучение

Каждый диалог — это тренировочный датасет. Система должна сохранять расшифровку, метки (тип мошенничества, успешность), аудиозапись и отправлять на ревью. Вы можете использовать слабую модель для первоначальной разметки, но периодически проверяйте диалоги вручную. Это позволит дообучать классификатор и улучшать промпты для LLM. Подобный цикл обратной связи — основа эффективного внедрения ИИ, как мы описывали в гайде по внедрению нейросетей в IT-компанию.

Выбор моделей на 2026 год: что работает, а что нет

Технологии меняются быстро. Вот актуальный на февраль 2026 года расклад:

Задача Рекомендуемая модель/сервис Критерий выбора
Транскрипция (streaming) Deepgram Nova-2, Whisper API 3.0 (режим real-time) Задержка <300 мс, поддержка помех в канале
Классификация/извлечение сущностей Gemini Nano 2 (локально), Claude 3.5 Haiku Низкая стоимость вызова, высокая скорость
Диалоговая LLM (мозг) GPT-4.5 Turbo (128K), Claude 3.5 Sonnet Качество следования инструкциям, креативность в диалоге
Синтез речи (TTS) ElevenLabs Multilingual v3, OpenAI tts-2-hd Естественность, эмоциональная окраска, поддержка русского

Не гонитесь за самой новой моделью. Тестируйте. Запустите A/B тест: отправляйте одинаковые диалоги в GPT-4.5 и в открытую модель типа Llama 4 70B (развернутую локально через llama.cpp) и сравнивайте, как долго мошенник ведет разговор.

Пайплайн обработки: от входящего вызова до ответа

Вся магия в orchestration. Вот как поток данных должен двигаться:

  1. Инициирование звонка: Шлюз VoIP принимает вызов, проверяет номер. При подозрении — открывает WebSocket-сессию с ядром приложения.
  2. Начало транскрипции: Аудиопоток направляется в транскрипционный сервис. Текст начинает поступать кусками (chunks).
  3. Первичный анализ: Каждый новый кусок текста отправляется в быструю классифицирующую LLM. Если модель с высокой уверенностью определяет мошенничество — триггерится основной диалоговый агент.
  4. Ведение диалога: Диалоговая LLM получает всю историю разговора (окно последних 10-15 реплик) и генерирует ответ. Системный промпт включает в себя текущую роль, цель и извлеченные сущности.
  5. Озвучка и отправка: Текст ответа синтезируется в речь, аудио отправляется обратно в VoIP шлюз, который передает его собеседнику.
  6. Логирование и анализ: Весь диалог, метаданные и аудио сохраняются в объектное хранилище (S3-совместимое). Отмечается продолжительность разговора и успешность (мошенник бросил трубку? раскрыл ли бота?).

Для оркестрации такого пайплайна используйте инструменты вроде Apache Kafka или NATS JetStream для передачи событий и Redis для хранения состояния диалога. Не пишите гигантский скрипт — разбейте на микросервисы (транскриптор, классификатор, диалоговый движок, TTS). Это позволит масштабировать каждый компонент независимо.

Нюансы, которые сломают вашу систему, если не учесть

Теория гладкая, а практика — деревянная. Вот где споткнутся 90% разработчиков:

Latency убивает иллюзию. Если между репликой мошенника и ответом бота проходит больше 1.5 секунд, разговор распадается. Мошенник почувствует неладное. Оптимизируйте каждую стадию: используйте streaming API, кэшируйте промпты, предзагружайте модели TTS.

  • Мошенники учатся. Они могут использовать свои ИИ-системы для детекции ботов. Ваш ассистент должен быть непредсказуемым: менять тембр голоса, добавлять случайные реплики не по теме, имировать кашель. Звучит смешно, но это работает.
  • Юридическая ловушка. В некоторых странах имитация человека автоматизированной системой без явного предупреждения может быть нарушением закона. Всегда начинайте с предупреждения. Это, кстати, хороший фильтр — легитимный caller услышит это и попросит соединить с человеком.
  • Атаки на инфраструктуру. Мошенники могут завалить вашу систему звонками (DDoS). Используйте rate limiting на уровне VoIP шлюза и приоритезацию звонков на основе репутации номера.

Помните, что создание такой системы — это постоянная гонка вооружений. Как и в истории с ZombieAgent и ShadowLeak, уязвимости и методы атак будут появляться постоянно. Нужен процесс постоянного мониторинга и обновления.

FAQ: частые вопросы и ошибки

Вопрос: Можно ли сделать это полностью локально, без облачных API?
Да, но готовьтесь к инженерным подвигам. Вам понадобится мощный сервер с GPU для запуска больших моделей (Llama 4 70B для диалога, что-то вроде Silero для TTS). Задержки будут выше, а качество — ниже, чем у топовых облачных сервисов. Для личного использования сойдет, для массового — нет.

Вопрос: Сколько это будет стоить?
Основная статья расходов — вызовы к коммерческим LLM API. Если диалог длится 10 минут и за это время вы отправите 20 запросов к GPT-4.5, это может обойтись в $0.30-$0.50 за разговор. Умножьте на тысячи звонков. Оптимизация через кэширование, использование более дешевых моделей для простых реплик и точная настройка декомпозиции задач критически важны для экономии.

Вопрос: А если мошенник использует синтезированный голос тоже?
Идеально. Тогда это бой ботов. Ваша система должна быть умнее. Используйте не только текст, но и анализ аудио-признаков (артефакты TTS) для детекции. Но это уже следующий уровень.

Главная ошибка: Сделать бота слишком умным или слишком глупым. Он должен балансировать на грани: быть достаточно убедительным, чтобы удержать внимание, и достаточно "тупым", чтобы мошенник верил, что вот-вот получит желаемое. Это тонкое искусство настройки промпта, а не просто техническая задача.

И последний совет: не увлекайтесь. Ваша цель — защита и сбор разведданных, не месть. Не давайте боту нарушать закон (например, угрожать или оскорблять). И помните, что лучшая защита — это информирование. Записанные диалоги можно публиковать (анонимизировано), чтобы показывать людям, как работают мошенники. Это превращает вашу техническую систему в социальный проект.

Подписаться на канал