Проблема: телефонные мошенники стали умнее, а мы — нет

Звонок с незнакомого номера. Голос, полный фальшивой заботы, сообщает, что ваш счет заблокирован, родственник в беде или вы выиграли приз. Классика. Но сегодня мошенники используют сложные социальные инженерные сценарии, синтезированные голоса и автоматизированные системы для обзвона тысяч людей в час. Защитные приложения часто бессильны — они лишь блокируют номера из черных списков, которые меняются быстрее, чем вы успеваете обновить базу.

Проблема не в спаме, а в целенаправленном воздействии на психику. И именно здесь классические методы дают сбой. Нужен не фильтр, а противник, способный вести диалог, анализировать намерения и тратить время мошенника, вместо вашего. Это превращает их бизнес-модель из низкорисковой в убыточную.

Решение: голосовой ИИ-ассистент, который тратит их время

Система, которая автоматически принимает подозрительные звонки, ведет беседу, имитируя человека, и собирает информацию о тактике мошенников. Цель — не просто отбиться, а затянуть разговор, создать помехи в их работе и получить данные для анализа.

Философия проекта: если мошенник тратит 20 минут на разговор с ботом, он не дозвонится до реальной жертвы. Это действует эффективнее, чем молчаливая блокировка.

Архитектура: из чего состоит система

Не пытайтесь запихнуть все в один монолит. Система должна быть модульной, масштабируемой и построена вокруг событийного пайплайна. Вот ее ядро:

1 Прием и маршрутизация звонков

Вам нужен шлюз для телефонии (SIP, VoIP). Не изобретайте велосипед — используйте готовые решения вроде Asterisk, FreeSWITCH или облачные API (Twilio, Voximplant). Этот шлюз должен уметь:

Определять входящий номер и сверять его с черными/серыми списками (локальными и публичными).
Принимать решение: пропустить звонок к человеку или перехватить его ботом.
Создавать медиа-поток (аудио) и направлять его в следующий модуль — транскриптор.

Здесь же решается вопрос легальности. В некоторых регионах запись разговора без предупреждения незаконна. Ваш бот должен начинать диалог с четкого сообщения: "Это автоматический ассистент. Разговор записывается для анализа безопасности". Это часто отпугивает мошенников сразу.

2 Транскрипция в реальном времени

Здесь все упирается в скорость и точность. Вам нужна модель, которая преобразует аудиопоток в текст с минимальной задержкой (200-500 мс). На 2026 год золотым стандартом остаются доработанные версии OpenAI Whisper (например, Whisper 3.0 с поддержкой streaming) или специализированные коммерческие API, такие как Deepgram Nova-2 или Google Speech-to-Text с включенным режимом interim results.

💡

Не используйте офлайн-модели для транскрипции без мощного железа. Задержка в 2-3 секунды убьет естественность диалога. Лучше взять облачный API с оплатой за использование — вы платите только за время разговоров с мошенниками.

3 Анализ диалога и классификация

Сердце системы. Полученный текст передается в LLM (Large Language Model), которая выполняет три задачи:

Определение намерения: это мошеннический звонок, легитимный звонок или что-то неопределенное?
Извлечение сущностей: номера счетов, имена, названия организаций, которые упоминает собеседник.
Генерация контекста для ответа: понимание сценария мошенника ("банк", "полиция", "техподдержка") и текущей стадии диалога.

Не стоит использовать одну гигантскую модель для всего. Разделите ответственность: легкая, быстрая модель (например, Gemini Nano или Phi-4) для классификации и извлечения сущностей, а мощная модель (GPT-4.5 Turbo, Claude 3.5 Sonnet) — для сложной логики ответа, если сценарий требует креатива. Это экономит деньги и снижает latency. Подробнее о тонкой настройке агентов читайте в нашем гайде про Agent Skills.

4 Генерация ответа

Самое интересное. LLM должна генерировать реплики, которые:

Соответствуют роли (пожилой человек, скептичный бизнесмен, растерянный пользователь).
Поддерживают диалог, задают уточняющие вопросы, чтобы затянуть время.
Не выдают себя за бота. Имитируют человеческие оговорки, паузы, эмоции.

Здесь критически важна системная инструкция (prompt). Она должна детально описывать личность бота, его цели и запреты (никогда не называть реальные данные). Ошибки в промпте приведут к тому, что бот либо быстро раскроется, либо, что хуже, начнет выдавать опасную информацию. Техники prompt injection, о которых мы писали в разборе Jailbreak SAFi агента, здесь тоже актуальны. Мошенник может попытаться сбить бота с толку.

5 Синтез речи

Сгенерированный текст нужно озвучить. Требования: естественность, скорость и управление интонацией. Используйте современные нейросетевые TTS (Text-to-Speech) модели: ElevenLabs, OpenAI Audio API (модель tts-2-hd) или открытые решения типа Coqui TTS. Важно добавить в аудио легкий шум, случайные паузы, помехи — идеально чистый голос звучит подозрительно.

6 Обратная связь и обучение

Каждый диалог — это тренировочный датасет. Система должна сохранять расшифровку, метки (тип мошенничества, успешность), аудиозапись и отправлять на ревью. Вы можете использовать слабую модель для первоначальной разметки, но периодически проверяйте диалоги вручную. Это позволит дообучать классификатор и улучшать промпты для LLM. Подобный цикл обратной связи — основа эффективного внедрения ИИ, как мы описывали в гайде по внедрению нейросетей в IT-компанию.

Выбор моделей на 2026 год: что работает, а что нет

Технологии меняются быстро. Вот актуальный на февраль 2026 года расклад:

Задача	Рекомендуемая модель/сервис	Критерий выбора
Транскрипция (streaming)	Deepgram Nova-2, Whisper API 3.0 (режим real-time)	Задержка <300 мс, поддержка помех в канале
Классификация/извлечение сущностей	Gemini Nano 2 (локально), Claude 3.5 Haiku	Низкая стоимость вызова, высокая скорость
Диалоговая LLM (мозг)	GPT-4.5 Turbo (128K), Claude 3.5 Sonnet	Качество следования инструкциям, креативность в диалоге
Синтез речи (TTS)	ElevenLabs Multilingual v3, OpenAI tts-2-hd	Естественность, эмоциональная окраска, поддержка русского

Не гонитесь за самой новой моделью. Тестируйте. Запустите A/B тест: отправляйте одинаковые диалоги в GPT-4.5 и в открытую модель типа Llama 4 70B (развернутую локально через llama.cpp) и сравнивайте, как долго мошенник ведет разговор.

Пайплайн обработки: от входящего вызова до ответа

Вся магия в orchestration. Вот как поток данных должен двигаться:

Инициирование звонка: Шлюз VoIP принимает вызов, проверяет номер. При подозрении — открывает WebSocket-сессию с ядром приложения.
Начало транскрипции: Аудиопоток направляется в транскрипционный сервис. Текст начинает поступать кусками (chunks).
Первичный анализ: Каждый новый кусок текста отправляется в быструю классифицирующую LLM. Если модель с высокой уверенностью определяет мошенничество — триггерится основной диалоговый агент.
Ведение диалога: Диалоговая LLM получает всю историю разговора (окно последних 10-15 реплик) и генерирует ответ. Системный промпт включает в себя текущую роль, цель и извлеченные сущности.
Озвучка и отправка: Текст ответа синтезируется в речь, аудио отправляется обратно в VoIP шлюз, который передает его собеседнику.
Логирование и анализ: Весь диалог, метаданные и аудио сохраняются в объектное хранилище (S3-совместимое). Отмечается продолжительность разговора и успешность (мошенник бросил трубку? раскрыл ли бота?).

Для оркестрации такого пайплайна используйте инструменты вроде Apache Kafka или NATS JetStream для передачи событий и Redis для хранения состояния диалога. Не пишите гигантский скрипт — разбейте на микросервисы (транскриптор, классификатор, диалоговый движок, TTS). Это позволит масштабировать каждый компонент независимо.

Нюансы, которые сломают вашу систему, если не учесть

Теория гладкая, а практика — деревянная. Вот где споткнутся 90% разработчиков:

Latency убивает иллюзию. Если между репликой мошенника и ответом бота проходит больше 1.5 секунд, разговор распадается. Мошенник почувствует неладное. Оптимизируйте каждую стадию: используйте streaming API, кэшируйте промпты, предзагружайте модели TTS.

Мошенники учатся. Они могут использовать свои ИИ-системы для детекции ботов. Ваш ассистент должен быть непредсказуемым: менять тембр голоса, добавлять случайные реплики не по теме, имировать кашель. Звучит смешно, но это работает.
Юридическая ловушка. В некоторых странах имитация человека автоматизированной системой без явного предупреждения может быть нарушением закона. Всегда начинайте с предупреждения. Это, кстати, хороший фильтр — легитимный caller услышит это и попросит соединить с человеком.
Атаки на инфраструктуру. Мошенники могут завалить вашу систему звонками (DDoS). Используйте rate limiting на уровне VoIP шлюза и приоритезацию звонков на основе репутации номера.

Помните, что создание такой системы — это постоянная гонка вооружений. Как и в истории с ZombieAgent и ShadowLeak, уязвимости и методы атак будут появляться постоянно. Нужен процесс постоянного мониторинга и обновления.

FAQ: частые вопросы и ошибки

Вопрос: Можно ли сделать это полностью локально, без облачных API?
Да, но готовьтесь к инженерным подвигам. Вам понадобится мощный сервер с GPU для запуска больших моделей (Llama 4 70B для диалога, что-то вроде Silero для TTS). Задержки будут выше, а качество — ниже, чем у топовых облачных сервисов. Для личного использования сойдет, для массового — нет.

Вопрос: Сколько это будет стоить?
Основная статья расходов — вызовы к коммерческим LLM API. Если диалог длится 10 минут и за это время вы отправите 20 запросов к GPT-4.5, это может обойтись в $0.30-$0.50 за разговор. Умножьте на тысячи звонков. Оптимизация через кэширование, использование более дешевых моделей для простых реплик и точная настройка декомпозиции задач критически важны для экономии.

Вопрос: А если мошенник использует синтезированный голос тоже?
Идеально. Тогда это бой ботов. Ваша система должна быть умнее. Используйте не только текст, но и анализ аудио-признаков (артефакты TTS) для детекции. Но это уже следующий уровень.

Главная ошибка: Сделать бота слишком умным или слишком глупым. Он должен балансировать на грани: быть достаточно убедительным, чтобы удержать внимание, и достаточно "тупым", чтобы мошенник верил, что вот-вот получит желаемое. Это тонкое искусство настройки промпта, а не просто техническая задача.

И последний совет: не увлекайтесь. Ваша цель — защита и сбор разведданных, не месть. Не давайте боту нарушать закон (например, угрожать или оскорблять). И помните, что лучшая защита — это информирование. Записанные диалоги можно публиковать (анонимизировано), чтобы показывать людям, как работают мошенники. Это превращает вашу техническую систему в социальный проект.

Подписаться на канал

Как создать ИИ-ассистента для борьбы с телефонными мошенниками: архитектура и пайплайн