Каждую неделю GitHub выдает десятки новых AI-проектов. Большинство — экспериментальный мусор. Но иногда попадаются алмазы, которые меняют правила игры для локального запуска. На этой неделе таких алмазов оказалось четыре.
EvoCUA: агент, который учится на своих ошибках (и это не метафора)
Представьте, что вы даете агенту задачу: "Найди дешевый рейс в Барселону на следующей неделе, забронируй отель с завтраком и создай маршрут по достопримечательностям". Обычный агент разобьет это на три подзадачи и пойдет по списку. Если на втором шаге что-то сломается — он зависнет или начнет галлюцинировать.
EvoCUA работает иначе. Он использует эволюционное планирование — создает несколько планов выполнения, запускает их параллельно, оценивает успешность и скрещивает лучшие части. Если бронирование отеля провалилось из-за отсутствия мест, агент не ломается. Он анализирует, почему провалилось, корректирует план и пробует снова.
Чем это отличается от топовых агентских моделей 2025 года? Тем, что EvoCUA не требует тонкой настройки под конкретные инструменты. Вы даете спецификацию API — агент сам учится с ними работать. В теории звучит как магия. На практике — работает в 70% случаев, что для open-source проекта января 2026 года невероятно много.
Главная проблема EvoCUA — ресурсы. Эволюционное планирование означает запуск 3-5 параллельных цепочек рассуждений. На сложных задачах агент может "думать" 30-40 секунд даже на хорошем железе. Для реального использования придется выбирать между скоростью и надежностью.
Qwen3-TTS: голос для вашего агента за 5 минут
Все агенты умеют думать. Некоторые — действовать. Но говорить человеческим голосом? До этой недели это была либо дорогая проприетарная API (вроде ElevenLabs), либо месяцы тренировок собственной модели.
Qwen3-TTS меняет правила. Это open-source модель синтеза речи от Alibaba, которая работает по принципу few-shot learning. Даете 5 секунд эталонной записи — получаете голос с похожими интонациями, акцентом и темпом. Хотите, чтобы ваш планировщик задач говорил как спокойный британский диктор? Загрузите образец. Нужен энергичный молодой голос для фитнес-помощника? Тоже работает.
Технически это продолжение того, что мы видели в обзоре Hugging Face недельной давности, но с критическими улучшениями:
- Поддержка 8 языков вместо 3 (добавили корейский, арабский, хинди)
- Эмоциональная окраска через текстовые промпты ("[грустно]", "[возбужденно]")
- Вес модели уменьшили с 500М до 300М параметров без потери качества
Практическое применение? Любой локальный агент теперь может получить голосовой интерфейс. Moltbot (о нем ниже) уже интегрировал Qwen3-TTS в свою десктопную версию. Результат — ассистент, который не только выполняет задачи, но и комментирует свои действия вслух.
Moltbot: агент, который не просит API-ключи
Большинство open-source агентов — это фреймворки. Скачайте код, установите зависимости, настройте окружение, получите API-ключи для поиска и погоды, скомпилируйте, запустите. К концу процесса хочется все удалить.
Moltbot — полная противоположность. Это десктопное приложение для macOS и Windows (Linux в бета). Скачиваете установщик, запускаете — получаете рабочего агента с предустановленными инструментами:
| Инструмент | Как работает | Особенность |
|---|---|---|
| Файловая система | Чтение, запись, поиск по файлам | Локально, без облачных загрузок |
| Браузер | Автоматизация через Playwright | Работает с JavaScript-сайтами |
| Календарь и почта | Интеграция с системными приложениями | Только macOS пока |
Под капотом — Mistral NeMo 32B, одна из моделей из нашего топа агентских моделей, но специально дообученная на задачах автоматизации десктопа. Разработчики Moltbot пошли по пути Apple: взяли готовую модель и заточили ее под конкретный пользовательский опыт.
Результат? Агент, который умеет: "Найди в моих документах PDF с квитанциями за январь, извлеки суммы, создай таблицу в Excel и отправь мне на почту". Без скриптов. Без кода. Просто текстовый запрос.
Безопасность — больной вопрос. Moltbot требует полного доступа к файловой системе. Код открытый, аудит проводило сообщество, но риск остается. Не ставьте на рабочий компьютер с конфиденциальными данными без понимания, как работает sandbox.
VIGA и другие: что еще появилось
Помимо трех главных релизов, на этой неделе вышло несколько любопытных проектов второго эшелона:
VIGA (Visual Instruction Grounding Agent) — мультимодальный агент, который понимает скриншоты. Покажете интерфейс приложения — VIGA объяснит, как им пользоваться. Сфотографируете ошибку — получите решение. Модель основана на LLaVA-NeXT 13B, но с улучшенным grounding (привязкой объектов на изображении к текстовым инструкциям). Пока сыровато, но направление перспективное.
Auto-DAN 2.0 — не совсем агент, а фреймворк для их создания. Позволяет описывать инструменты на естественном языке, а система сама генерирует код для их интеграции. Хотите подключить агента к Trello? Опишите API — Auto-DAN создаст обертку. Выглядит как будущее, но в текущей версии часто ломается на сложных API.
TaskWeaver-lite — облегченная версия Microsoft TaskWeaver. Если оригинал требовал Kubernetes-кластер, то lite-версия работает на одной машине. Урезали поддержку параллельных агентов, но оставили главное — декларативное описание workflows.
Что это значит для индустрии?
Неделя января 2026 показала четкий тренд: open-source агенты перестали быть игрушками для энтузиастов. Они становятся практическими инструментами, которые можно использовать здесь и сейчас.
EvoCUA решает проблему хрупкости — агенты ломаются на полпути. Qwen3-TTS решает проблему интерфейса — текстовый вывод это 1990-е. Moltbot решает проблему сложности — скачал и работай.
Это происходит именно сейчас не случайно. Пока OpenAI строит планы на триллион долларов и готовит проприетарных суперагентов, open-source сообщество создает альтернативу, которая работает локально, бесплатно и без ограничений по использованию.
Но есть нюанс. Качество. Проприетарные агенты от OpenAI или Anthropic будут стабильнее, умнее и безопаснее. Они пройдут аудит, получат сертификаты, их будут использовать корпорации. Open-source альтернативы — для тех, кто готов мириться с ошибками в обмен на контроль и приватность.
Что делать прямо сейчас? Если у вас есть RTX 4070 или лучше — поставьте Moltbot. Посмотрите, как работает локальный агент на практике. Если хочется экспериментов — попробуйте EvoCUA с кастомными инструментами. Если нужен голос — Qwen3-TTS интегрируется с чем угодно через его API.
Главный вывод недели: 2026 год станет годом, когда AI-агенты перейдут из категории "технология будущего" в категорию "инструмент, который лежит на компьютере". И open-source сообщество уже строит это будущее — по одному релизу в неделю.