Запертая жемчужина
Май 2026 года. Thinking Machines тихо запускает API для своей модели realtime interaction. Никаких весов, никаких бумаг с архитектурой — только эндпоинт, который отвечает со скоростью человеческого разговора. Сообщество взрывается: «Дайте открытые веса!». Но компания молчит. И тут в игру вступает старый трюк — дистилляция.
В теории это работает так: вы гоняете запросы через API, собираете логи, учите маленькую модель отвечать так же. На практике Thinking Models могли бы вставить защиту — rate limits, watermarking, проклятие токенов. Но дьявол, как всегда, в деталях.
Дистилляция через API уже превратила GPT-4 в десятки локальных моделей. С realtime моделями нюансов больше: тут важна задержка меньше 200 мс, умение держать контекст полутораминутного диалога и мгновенно переключаться между темами. Обычные дистилляторы это не умеют.
Чем realtime interaction отличается от обычного чата
Забудьте про классическое «пошел токен — вернул токен». Realtime модель живёт в потоке: она может прервать собеседника, изменить интонацию, параллельно анализировать видео с камеры. Thinking Machines явно строили её на архитектуре, близкой к гибридам diffusion и autoregressive LLM, которые в 2025 году показали, что могут обогнать чистые трансформеры по скорости.
Но вот парадокс: если модель обучена на миллионах часов речи, дистилляция через API может дать только поверхностные паттерны. «Как ServiceNow ускорила модель в 2.1 раза, игнорируя интуицию о данных» — тот случай, когда грубая сила перевесила академическую чистоту. Статья о дистилляции в Mamba показала, что можно сжать даже state-space модели без потери качества — если правильно подобрать loss.
API как клетка — или как теплица?
Зачем вообще выкатывать модель только через API? Причины банальны: безопасность (не дать врагам делать deepfake в реальном времени), монетизация (каждый запрос приносит деньги), контроль версий. Но сообщество уже научилось обходить и не такое. Messages API от Anthropic в llama.cpp — доказательство, что даже закрытый эндпоинт можно превратить в локальный сервер, если достаточно упорства. Но там шла речь об обычном чате, а не о realtime.
Попытка дистиллировать realtime модель через API может убить её главный козырь — настоящую интерактивность. Вы получите симулякр, который отвечает с задержкой, не может вас перебить и тупит на неожиданных репликах.
Хорошая новость: маленькие LLM уже догоняют гигантов. Если верить бенчмаркам 2026 года, модели в 7B параметров почти сравнялись с GPT-4 на задачах креативного письма и рассуждений. Значит, умело дистиллированная realtime-модель на 3-5B параметров могла бы крутиться на современном ноутбуке с RTX 5000 — и быть достаточно быстрой для диалога.
План дистилляции: пошаговая авантюра
Допустим, вы решили попробовать. Как именно будет выглядеть дистилляция через API realtime модели?
- Шаг 1. Запись диалогов — гоняете через API тысячи типовых разговоров, записываете все: инициацию, ответы, прерывания. Проблема: Thinking Machines может вставлять мусорные токены или менять поведение по ходу, чтобы запутать дистиллятора.
- Шаг 2. Обучение студента — берёте маленькую модель (например, на базе архитектуры Mamba или TinyLLaMA), учите её воспроизводить лог. Persistent REPL для локальных LLM здесь пригодится: он позволяет держать сессию открытой долго, что критично для обучения на длинных realtime треках.
- Шаг 3. Тонкая настройка интерактивности — обычная дистилляция игнорирует темп. Нужно специально обучать student'а делать паузы, повышать голос (в токенах это эмбеддинг эмоций). MIT уже делали такое с одношаговыми диффузионными моделями — перенести опыт на речь реального времени не так сложно.
Результат? Вероятно, вы получите работающий прототип за месяц. Он будет тупить на 30% запросов, зато — полностью локальный.
А что, если не выйдет?
Открытые веса Thinking Machines может и не выложить никогда. Но это не проблема. Дистилляция через API — легитимный (хоть и спорный с этической точки зрения) метод. Сама идея «украсть огонь у богов» стара как мир. И если модель действительно хороша, рано или поздно кто-то её сдистиллирует — либо сообщество, либо китайские компании, либо сам Thinking Machines в виде облегчённой открытой версии.
Ваша задача — быть готовым. Следите за обновлениями API, учитесь работать с потоковыми данными, дружите с llama.cpp и не верьте маркетингу о «невозможности дистилляции realtime». Единственное, что реально помешает — если Thinking Machines встроит в каждый запрос уникальный цифровой отпечаток и натренирует детектор дистиллированных моделей. Но это уже паранойя.
Прогноз: к концу 2026 года появится первый open-source реалтайм-ассистент, созданный исключительно через дистилляцию API. И он будет работать на вашем ноутбуке. Дерзайте.