Зачем вообще это нужно? (Кому надоели "полулокальные" сервисы)

Представьте: вы обсуждаете конфиденциальный проект, медицинский диагноз или просто хотите записать идею, не делясь ею с OpenAI, Google или Microsoft. Большинство "локальных" решений на деле отправляют куски аудио в облако или используют проприетарные API. Даже те, что хвастаются локальностью Whisper, часто протаскивают текст в GPT-4 через интернет для суммаризации.

На февраль 2026 года ситуация с приватностью в коммерческих сервисах только ухудшилась. Apple Intelligence, представленный в 2024, по умолчанию отправляет данные на обработку (если не указать Private Cloud Compute). Многие приложения в App Store, рекламирующие "локальность", на деле используют гибридные схемы.

Что получается в итоге: меню-бар приложение с мозгом

Одна иконка в строке меню. Кликнул - началась запись с микрофона MacBook. Еще кликнул - остановил. Через минуту (или мгновенно, если использовать Whisper.cpp) получаешь готовую транскрипцию с тайм-кодами. Еще через пару секунд - краткое содержание, список action items и ключевые тезисы, сгенерированные Llama 3.1 8B или новой Qwen2.5 7B, которые работают полностью офлайн через Ollama.

Стек технологий 2026 года (актуально на сегодня)

Распознавание речи: Whisper.cpp (оптимизированная версия от Georgi Gerganov) или WhisperKit для нативного Apple Silicon. Альтернатива - Qwen3-ASR от Alibaba, который в 2026 году показывает сравнимую точность с Whisper v3, но лучше работает с русским.
Языковая модель: Ollama с поддержкой новых моделей 2025-2026: Llama 3.2 7B, Qwen2.5 7B, или специализированные модели для суммаризации вроде Summ-It-2B.
Интерфейс: SwiftUI приложение в меню-баре, работает в фоне, минималистичное.
Хранение: Локальная база данных SQLite или просто текстовые файлы в зашифрованном контейнере.

💡

В 2026 году Whisper.cpp поддерживает режим real-time транскрипции с задержкой менее 500 мс на M3 Max. Это позволяет видеть текст почти сразу, как вы говорите - как в диктовках от Dragon, но без подписок и отправки данных.

Чем это лучше существующих решений? (Сравнительная таблица)

Решение	Приватность	Стоимость	Локальность суммаризации	Требования к железу
Наш сборник (Whisper + Ollama)	100% локально	Бесплатно	Да, через Llama локально	Mac с Apple Silicon (от M1)
Otter.ai / Fireflies.ai	Облако полностью	$10-30/месяц	Нет, облачные модели	Любой браузер
Apple Intelligence диктовка	Частично (можно включить PCC)	Включено в macOS	Нет, только транскрипция	Mac с Apple Silicon
Wispr Flow (локальная версия)	Локальная транскрипция	$49 разово	Нет, или через API	Mac с Apple Silicon
AnythingLLM Meeting Assistant	Зависит от настройки	Бесплатно	Да, если настроить локально	Требует больше RAM (16GB+)

Под капотом: как это технически работает

Архитектура проще, чем кажется. Не нужно писать тысячи строк кода - все компоненты уже существуют, нужно их только соединить.

1 Запись аудио (системный микрофон или приложение)

Swift или Python код захватывает аудиопоток через AVFoundation (на Mac). Можно записывать системный звук целиком (все приложения) или только микрофон. В 2026 году Apple наконец-то дала нормальный API для захвата системного аудио без хаков вроде BlackHole или SoundFlower.

2 Транскрипция через Whisper.cpp

Записанный файл (или поток) отправляется в Whisper.cpp. На M3 Pro это занимает примерно 0.3x реального времени для русской речи среднего качества. То есть часовая встреча обрабатывается за 18-20 минут. Если использовать WhisperKit, можно получить еще лучшее ускорение за счет Metal Performance Shaders.

Важный нюанс 2026 года: Whisper.cpp теперь поддерживает квантованные модели GGUF формата до 4-бит без значительной потери точности. Модель "large-v3" занимает всего 1.5GB вместо 6GB, что критично для MacBook Air с 8GB RAM.

3 Суммаризация через Ollama + Llama

Готовый текст отправляется в Ollama через REST API (localhost:11434). Промпт примерно такой: "Ты - ассистент для встреч. Суммаризируй следующую транскрипцию, выдели ключевые решения, action items с ответственными и дедлайнами. Ответ в формате markdown."

В 2026 году для этой задачи отлично подходят:

Llama 3.2 7B-Instruct - обновленная версия от Meta, специально дообученная для инструкций
Qwen2.5 7B-Instruct - от Alibaba, бесплатно, отлично понимает контекст
Summ-It-2B - сверхлегкая модель только для суммаризации, работает даже на MacBook Air

4 Хранение и поиск

Все транскрипции и саммари сохраняются локально. Можно добавить простой поиск через SQLite FTS5 или даже локальную векторную базу для семантического поиска (хотя это уже overkill для большинства).

Сложности, о которых молчат в туториалах

В теории все гладко. На практике:

1. Качество микрофона. Встроенный микрофон MacBook ловит все клацанье клавиш, скрип стула и шум вентиляторов. Whisper пытается это все расшифровать, получается ерунда. Решение - внешний микрофон или настройка шумоподавления на уровне системы.

2. Память. Запустить одновременно Whisper large (3GB) и Llama 7B (4.5GB в 4-битном формате) на MacBook Air с 8GB RAM - это как втиснуть двух суммоистов в Smart. Система начинает свопиться, все тормозит. Нужно либо использовать легкие модели, либо транскрибировать и суммаризировать последовательно, а не параллельно.

3. Перекрывающаяся речь. В реальных встречах люди перебивают друг друга, говорят одновременно. Whisper с этим справляется плохо, путает спикеров. Решение - использовать модели с диаризацией вроде PyAnnote или, что проще, смириться и потом вручную править.

Интеграция с Apple Intelligence: зачем и как

С 2024 года в macOS появилась система Apple Intelligence. В 2026 году ее API стали более открытыми. Можно использовать ее компоненты, сохраняя приватность:

Private Cloud Compute (PCC) - если все-таки нужно что-то отправить в облако (например, для перевода на редкий язык), можно использовать PCC, где Apple гарантирует, что данные не сохраняются и не используются для тренировки
On-Device Speech Recognition - вместо Whisper можно использовать встроенный в macOS движок распознавания (тот же, что в диктовке), но он менее точен для русского
Системные уведомления - готовую транскрипцию можно показывать через Notification Center

Для кого это решение, а кому лучше не связываться

Идеально подойдет:

Юристам, врачам, психологам - всем, кто работает с конфиденциальной информацией
Журналистам, берущим интервью по sensitive темам
Разработчикам, которые не хотят, чтобы их идеи утекали в тренировочные датасеты
Компаниям с strict compliance требованиями (GDPR, HIPAA)

Лучше поискать альтернативы:

Если у вас MacBook Air с 8GB RAM - будет тормозить, особенно с длинными встречами
Если нужна транскрипция в реальном времени с задержкой менее 1 секунды - лучше посмотреть на Parakeet
Если обрабатываете десятки часов аудио ежедневно - облачные сервисы все равно дешевле (электричество и износ железа стоит денег)

Что будет дальше? Прогноз на 2027

К 2027 году, судя по трендам, такие локальные решения станут стандартом для корпоративного сектора. Apple, скорее всего, выпустит нативный фреймворк для полностью локальных AI-пайплайнов (сейчас для этого нужно городить Ollama + Whisper.cpp + кастомный код).

Уже сейчас видно движение в эту сторону: vLLM-MLX показывает, что можно добиться 464 токенов в секунду на M3 Max. Через год-два это будет работать и на базовых M4.

Главный вызов - не железо, а UX. Сделать локальное решение таким же удобным, как Otter.ai (где просто нажимаешь кнопку и все работает) - вот настоящая задача. Пока что приходится выбирать: либо приватность и головная боль с настройкой, либо удобство и отправка данных бог знает куда.

Но если вы готовы потратить вечер на настройку - получаете инструмент, который принадлежит только вам. Как старый добрый диктофон, только с искусственным интеллектом внутри. И без подписок.

MacBook превращается в стенографиста: как собрать полностью локальный рекордер встреч с Whisper и Llama