Ты устал от облачных API, которые едят данные и деньги? Izwi говорит: хватит
Представьте инструмент, который берет вашу запись интервью, сам понимает, где говорит Иван, а где Петр, выдает текст с точностью до миллисекунды и может этот же текст озвучить другим голосом. И все это работает на вашем ноутбуке, без интернета, без ежемесячных счетов. Это не фантастика — это Izwi по состоянию на февраль 2026 года.
Izwi — это не просто еще один фронтенд для Whisper. Это движок на Rust, который собрал под своим капотом лучшие open-source модели для работы со звуком: Qwen3-ASR для транскрипции, собственные алгоритмы для диарзации (разделения спикеров) и forced alignment (точного сопоставления текста и аудио), и Qwen3-TTS для синтеза речи. Все в одном бинарнике. Все локально.
Актуальность на 16.02.2026: Izwi уже использует Qwen3-ASR 1.7B — последнюю на эту дату версию модели от Alibaba. Для TTS доступна Qwen3-TTS 1.7B с поддержкой клонирования голоса. Обновления выходят раз в несколько недель, и команда активно развивает поддержку новых архитектур, включая Gemma 3 для некоторых задач.
Что умеет Izwi на самом деле? Не только «преобразовать в текст»
Если думаете, что это просто замена для Whisper.cpp, вы ошибаетесь. Вот из чего состоит его арсенал:
- Транскрибация (ASR): На базе Qwen3-ASR 1.7B. Модель поддерживает множество языков, включая русский, английский, китайский. Точность на русском, по моим тестам, уже догоняет Whisper v3 Large, а скорость — выше.
- Диарзация (Speaker Diarization): Вот где магия. Izwi сам определяет, сколько спикеров в записи, и подписывает реплики: «Спикер 0», «Спикер 1». Не нужно заранее знать количество участников. Алгоритм работает на основе эмбеддингов голоса.
- Forced Alignment: После транскрипции можно «привязать» готовый текст к аудио с точностью до начала и конца каждого слова. Идеально для создания субтитров или анализа пауз.
- Синтез речи (TTS): Интеграция с Qwen3-TTS. Можно либо использовать предустановленные голоса, либо клонировать голос из короткой аудио-референции (5-10 секунд достаточно). Для ускорения на CPU есть связка с Qwen3-TTS.cpp.
- Форматы: Вход — WAV, MP3, FLAC, даже видеофайлы. Выход — текст (TXT, SRT, VTT), разметка по спикерам (JSON), или даже новое аудио после TTS.
Сравнение: Izwi против классического стека (Whisper + PyAnnote + что-то еще)
Раньше для такого пайплайна нужно было скачать три разных репозитория, настроить Python-окружение, следить за совместимостью версий. Izwi убивает эту боль.
| Задача | Классический стек (2024-2025) | Izwi (2026) |
|---|---|---|
| Транскрибация | Whisper (OpenAI) + Whisper.cpp | Qwen3-ASR 1.7B (встроено) |
| Диарзация | PyAnnote или самостоятельная настройка | Встроенный алгоритм, одна команда |
| Forced Alignment | Gentle или Montreal Forced Aligner | Встроенная функция |
| Установка | Часы на настройку зависимостей | Скачать бинарник или собрать из исходников на Rust |
| Потребление памяти | Высокое (отдельные процессы) | Оптимизировано, общая память для моделей |
Для тех, кто все еще любит Whisper, есть альтернативы вроде локального стека с Ollama или Whisper.cpp для продакшена. Но они решают только одну задачу.
Главное отличие Izwi — не в абсолютной точности (Qwen3-ASR пока чуть уступает Whisper v3 Large на сложном аудио с акцентами), а в цельности решения. Одна команда — готовый результат со всеми метаданными.
Как это выглядит на практике? От командной строки до GUI
Izwi работает из терминала. Это может напугать, но команды интуитивные. Вот как расшифровать часовое интервью с разделением спикеров:
# Базовая транскрибация с диарзацией
izwi transcribe interview.mp3 --language ru --diarize
# Результат: создастся файл interview.json с текстом, метками времени и идентификаторами спикеров.
# Если у вас уже есть текст и нужно его точно привязать к аудио (forced alignment)
izwi align interview.mp3 transcript.txt --output aligned.srt
# А теперь синтез речи: озвучить текст голосом, клонированным с sample.wav
izwi tts "Привет, это тестовое сообщение" --voice-reference sample.wav --output hello.wav
Если командная строка — не ваше, есть Izwi Desktop. Это графическая оболочка, которая упаковывает всю мощь движка в понятные кнопки. Загрузили аудио, нажали «Transcribe & Diarize», получили готовую расшифровку с цветовой разметкой спикеров. Подробнее про десктопную версию мы писали в обзоре Izwi Desktop.
Для кого Izwi — находка, а для кого — избыточный инструмент?
Izwi не пытается быть всем. Он решает конкретные задачи определенной аудитории.
1Вы — журналист, исследователь, подкастер
У вас десятки часов интервью. Вам нужно быстро получить расшифровку, понять, кто что сказал, и maybe вырезать фрагменты. Ручная работа займет дни. Izwi сделает это за часы. Диарзация — ваш главный друг. Больше не нужно слушать и подписывать «Иван: ... Петр: ...» вручную.
2Вы — создатель контента или локализатор
Нужны субтитры к видео? Транскрибация + forced alignment = готовые SRT-файлы с точными таймингами. Плюс, если вы делаете дубляж или озвучку, TTS-компонент позволяет быстро создать черновые варианты голосов. Для полного цикла создания аудиокниг можно посмотреть в сторону Alexandria или конвертера на Qwen3 TTS.
3Вы — разработчик, который ценит приватность
Ваши аудиоданные — ваши. Они не улетают в облака OpenAI, Google или других гигантов. Izwi работает полностью локально. Если вы уже используете приватные голосовые решения, то Izwi логично встанет в ваш стек.
Под капотом: Rust, производительность и что там с железом
Izwi написан на Rust — это сразу говорит о фокусе на скорость и надежность. Нет гигантского рантайма Python, меньше накладных расходов. Модели загружаются в память один раз и используются для разных задач.
Требования к железу (февраль 2026):
- CPU: Поддерживаются x86-64 и ARM (Apple Silicon). На M3 Pro транскрибация идет почти в реальном времени.
- RAM: Для комфортной работы с Qwen3-ASR 1.7B и TTS-моделью нужно от 8 ГБ оперативки. Для больших файлов лучше 16 ГБ+.
- GPU (опционально): Поддержка CUDA и Metal есть, но не обязательна. На CPU работает вполне сносно благодаря оптимизациям из Qwen3-TTS.cpp.
- Память на диске: Сама программа весит немного, но модели нужно скачать. Qwen3-ASR 1.7B — это около 3.5 ГБ, Qwen3-TTS 1.7B — еще около 3.5 ГБ. Будьте готовы выделить 7-10 ГБ под модельки.
Разработчики активно работают над поддержкой новых форматов моделей (GGUF, Safetensors) и интеграцией с такими фреймворками, как llama.cpp, что в будущем может еще сильнее снизить требования.
Начинаем работу: где скачать и как не облажаться с первого раза
Все начинается с GitHub репозитория Izwi. Там есть бинарные сборки для Windows, macOS (Intel и Apple Silicon) и Linux. Качайте последний релиз — на февраль 2026 это версия v0.8.x.
После запуска Izwi сам предложит скачать необходимые модели при первом использовании команды. Скачивание прямое с Hugging Face, так что убедитесь, что есть стабильный интернет для загрузки гигабайтов данных.
Самая частая ошибка новичков — попытка обработать 3-часовой файл на ноутбуке с 8 ГБ RAM. Izwi съест всю память и уйдет в своп. Начинайте с коротких файлов (5-10 минут), чтобы оценить потребление ресурсов на вашем железе.
Если нужен только синтез речи и хочется максимальной скорости, проверьте связку с портативной версией Qwen3-TTS.
Что дальше? Будущее за целостными локальными стеками
Izwi — четкий сигнал рынку. Пользователи устали собирать пазлы из десятка скриптов. Нужны готовые, приватные, мощные инструменты «все в одном». Движок еще молодой, где-то сыроватый (документация иногда отстает от возможностей), но направление движения верное.
Ожидайте, что к концу 2026 года такие платформы, как Izwi, начнут предлагать не только базовые функции, но и продвинутую пост-обработку: автоматическое исправление грамматики в транскриптах, суммирование диалогов, выделение ключевых моментов — все на том же локальном ядре. Конкуренция с облачными API станет серьезнее.
Мой совет? Если вы работаете с аудио регулярно и устали платить за API или возиться со скриптами — поставьте Izwi и попробуйте на своем реальном проекте. Первые 10 минут могут уйти на привыкание к CLI, но когда вы одной командой получите готовую расшифровку интервью с разметкой спикеров, возвращаться к старому методу уже не захочется. Это тот случай, когда open-source-инструмент не просто «бесплатный аналог», а по-настоящему лучшее решение для конкретной задачи.