Izwi обзор 2026: локальная транскрибация, диарзация, TTS с Qwen3 | AiManual
AiManual Logo Ai / Manual.
16 Фев 2026 Инструмент

Izwi: локальный монстр для аудио, который понимает кто говорит и как

Полный разбор Izwi — Rust-движка для аудио на Qwen3. Транскрипция, разделение спикеров, синтез речи на одной машине. Сравнение с Whisper, Ollama.

Ты устал от облачных API, которые едят данные и деньги? Izwi говорит: хватит

Представьте инструмент, который берет вашу запись интервью, сам понимает, где говорит Иван, а где Петр, выдает текст с точностью до миллисекунды и может этот же текст озвучить другим голосом. И все это работает на вашем ноутбуке, без интернета, без ежемесячных счетов. Это не фантастика — это Izwi по состоянию на февраль 2026 года.

Izwi — это не просто еще один фронтенд для Whisper. Это движок на Rust, который собрал под своим капотом лучшие open-source модели для работы со звуком: Qwen3-ASR для транскрипции, собственные алгоритмы для диарзации (разделения спикеров) и forced alignment (точного сопоставления текста и аудио), и Qwen3-TTS для синтеза речи. Все в одном бинарнике. Все локально.

Актуальность на 16.02.2026: Izwi уже использует Qwen3-ASR 1.7B — последнюю на эту дату версию модели от Alibaba. Для TTS доступна Qwen3-TTS 1.7B с поддержкой клонирования голоса. Обновления выходят раз в несколько недель, и команда активно развивает поддержку новых архитектур, включая Gemma 3 для некоторых задач.

Что умеет Izwi на самом деле? Не только «преобразовать в текст»

Если думаете, что это просто замена для Whisper.cpp, вы ошибаетесь. Вот из чего состоит его арсенал:

  • Транскрибация (ASR): На базе Qwen3-ASR 1.7B. Модель поддерживает множество языков, включая русский, английский, китайский. Точность на русском, по моим тестам, уже догоняет Whisper v3 Large, а скорость — выше.
  • Диарзация (Speaker Diarization): Вот где магия. Izwi сам определяет, сколько спикеров в записи, и подписывает реплики: «Спикер 0», «Спикер 1». Не нужно заранее знать количество участников. Алгоритм работает на основе эмбеддингов голоса.
  • Forced Alignment: После транскрипции можно «привязать» готовый текст к аудио с точностью до начала и конца каждого слова. Идеально для создания субтитров или анализа пауз.
  • Синтез речи (TTS): Интеграция с Qwen3-TTS. Можно либо использовать предустановленные голоса, либо клонировать голос из короткой аудио-референции (5-10 секунд достаточно). Для ускорения на CPU есть связка с Qwen3-TTS.cpp.
  • Форматы: Вход — WAV, MP3, FLAC, даже видеофайлы. Выход — текст (TXT, SRT, VTT), разметка по спикерам (JSON), или даже новое аудио после TTS.

Сравнение: Izwi против классического стека (Whisper + PyAnnote + что-то еще)

Раньше для такого пайплайна нужно было скачать три разных репозитория, настроить Python-окружение, следить за совместимостью версий. Izwi убивает эту боль.

ЗадачаКлассический стек (2024-2025)Izwi (2026)
ТранскрибацияWhisper (OpenAI) + Whisper.cppQwen3-ASR 1.7B (встроено)
ДиарзацияPyAnnote или самостоятельная настройкаВстроенный алгоритм, одна команда
Forced AlignmentGentle или Montreal Forced AlignerВстроенная функция
УстановкаЧасы на настройку зависимостейСкачать бинарник или собрать из исходников на Rust
Потребление памятиВысокое (отдельные процессы)Оптимизировано, общая память для моделей

Для тех, кто все еще любит Whisper, есть альтернативы вроде локального стека с Ollama или Whisper.cpp для продакшена. Но они решают только одну задачу.

Главное отличие Izwi — не в абсолютной точности (Qwen3-ASR пока чуть уступает Whisper v3 Large на сложном аудио с акцентами), а в цельности решения. Одна команда — готовый результат со всеми метаданными.

Как это выглядит на практике? От командной строки до GUI

Izwi работает из терминала. Это может напугать, но команды интуитивные. Вот как расшифровать часовое интервью с разделением спикеров:

# Базовая транскрибация с диарзацией
izwi transcribe interview.mp3 --language ru --diarize

# Результат: создастся файл interview.json с текстом, метками времени и идентификаторами спикеров.

# Если у вас уже есть текст и нужно его точно привязать к аудио (forced alignment)
izwi align interview.mp3 transcript.txt --output aligned.srt

# А теперь синтез речи: озвучить текст голосом, клонированным с sample.wav
izwi tts "Привет, это тестовое сообщение" --voice-reference sample.wav --output hello.wav

Если командная строка — не ваше, есть Izwi Desktop. Это графическая оболочка, которая упаковывает всю мощь движка в понятные кнопки. Загрузили аудио, нажали «Transcribe & Diarize», получили готовую расшифровку с цветовой разметкой спикеров. Подробнее про десктопную версию мы писали в обзоре Izwi Desktop.

Для кого Izwi — находка, а для кого — избыточный инструмент?

Izwi не пытается быть всем. Он решает конкретные задачи определенной аудитории.

1Вы — журналист, исследователь, подкастер

У вас десятки часов интервью. Вам нужно быстро получить расшифровку, понять, кто что сказал, и maybe вырезать фрагменты. Ручная работа займет дни. Izwi сделает это за часы. Диарзация — ваш главный друг. Больше не нужно слушать и подписывать «Иван: ... Петр: ...» вручную.

2Вы — создатель контента или локализатор

Нужны субтитры к видео? Транскрибация + forced alignment = готовые SRT-файлы с точными таймингами. Плюс, если вы делаете дубляж или озвучку, TTS-компонент позволяет быстро создать черновые варианты голосов. Для полного цикла создания аудиокниг можно посмотреть в сторону Alexandria или конвертера на Qwen3 TTS.

3Вы — разработчик, который ценит приватность

Ваши аудиоданные — ваши. Они не улетают в облака OpenAI, Google или других гигантов. Izwi работает полностью локально. Если вы уже используете приватные голосовые решения, то Izwi логично встанет в ваш стек.

💡
А кому не подойдет? Если вам нужна только транскрибация и вы уже довольны Whisper через API — менять нет смысла. Если ваша основная задача — только клонирование голоса с супер-качеством, то лучше взглянуть на специализированные инструменты вроде MimikaStudio. Izwi — швейцарский нож, а не скальпель.

Под капотом: Rust, производительность и что там с железом

Izwi написан на Rust — это сразу говорит о фокусе на скорость и надежность. Нет гигантского рантайма Python, меньше накладных расходов. Модели загружаются в память один раз и используются для разных задач.

Требования к железу (февраль 2026):

  • CPU: Поддерживаются x86-64 и ARM (Apple Silicon). На M3 Pro транскрибация идет почти в реальном времени.
  • RAM: Для комфортной работы с Qwen3-ASR 1.7B и TTS-моделью нужно от 8 ГБ оперативки. Для больших файлов лучше 16 ГБ+.
  • GPU (опционально): Поддержка CUDA и Metal есть, но не обязательна. На CPU работает вполне сносно благодаря оптимизациям из Qwen3-TTS.cpp.
  • Память на диске: Сама программа весит немного, но модели нужно скачать. Qwen3-ASR 1.7B — это около 3.5 ГБ, Qwen3-TTS 1.7B — еще около 3.5 ГБ. Будьте готовы выделить 7-10 ГБ под модельки.

Разработчики активно работают над поддержкой новых форматов моделей (GGUF, Safetensors) и интеграцией с такими фреймворками, как llama.cpp, что в будущем может еще сильнее снизить требования.

Начинаем работу: где скачать и как не облажаться с первого раза

Все начинается с GitHub репозитория Izwi. Там есть бинарные сборки для Windows, macOS (Intel и Apple Silicon) и Linux. Качайте последний релиз — на февраль 2026 это версия v0.8.x.

После запуска Izwi сам предложит скачать необходимые модели при первом использовании команды. Скачивание прямое с Hugging Face, так что убедитесь, что есть стабильный интернет для загрузки гигабайтов данных.

Самая частая ошибка новичков — попытка обработать 3-часовой файл на ноутбуке с 8 ГБ RAM. Izwi съест всю память и уйдет в своп. Начинайте с коротких файлов (5-10 минут), чтобы оценить потребление ресурсов на вашем железе.

Если нужен только синтез речи и хочется максимальной скорости, проверьте связку с портативной версией Qwen3-TTS.

Что дальше? Будущее за целостными локальными стеками

Izwi — четкий сигнал рынку. Пользователи устали собирать пазлы из десятка скриптов. Нужны готовые, приватные, мощные инструменты «все в одном». Движок еще молодой, где-то сыроватый (документация иногда отстает от возможностей), но направление движения верное.

Ожидайте, что к концу 2026 года такие платформы, как Izwi, начнут предлагать не только базовые функции, но и продвинутую пост-обработку: автоматическое исправление грамматики в транскриптах, суммирование диалогов, выделение ключевых моментов — все на том же локальном ядре. Конкуренция с облачными API станет серьезнее.

Мой совет? Если вы работаете с аудио регулярно и устали платить за API или возиться со скриптами — поставьте Izwi и попробуйте на своем реальном проекте. Первые 10 минут могут уйти на привыкание к CLI, но когда вы одной командой получите готовую расшифровку интервью с разметкой спикеров, возвращаться к старому методу уже не захочется. Это тот случай, когда open-source-инструмент не просто «бесплатный аналог», а по-настоящему лучшее решение для конкретной задачи.