Инструменты для работы с AI

A

Alexandria: ваш личный режиссер аудиокниг, который раздает эмоции как конфеты

Полный гайд по установке и настройке Alexandria — локального генератора аудиокниг с эмоциональными метками, QWEN3 TTS и клонированием голоса. Работает без облак

Обзор

M

MiniCPM-o-4.5: Модель размером с кошку, но с мозгами слона

Полный обзор MiniCPM-o-4.5 - 9-миллиардной мультимодальной модели с речью, зрением и полным дуплексом для локального запуска. Сравнение, примеры, установка.

Обзор

H

Holo2-235B-A22B: как агентная локализация улучшает точность распознавания UI-элементов на 10-20%

Holo2-235B-A22B устанавливает новый стандарт распознавания UI-элементов. 78.5% на ScreenSpot-Pro, итеративное уточнение через агентную локализацию. Доступна на

Обзор

Q

Qwen3-Coder-Next 3B: как 3 миллиарда параметров переиграли гигантов кодинга

Анализ победы Qwen3-Coder-Next 3B в SWE-Bench Pro. Как многозадачный агентный подход позволил 3B модели обойти 70B конкурентов. Технические детали и практическо

Обзор

L

Loot-JSON: когда маленькие LLM ломают JSON, а вы спасаете данные

TS-библиотека для очистки и исправления некорректного JSON от маленьких LLM-моделей. Установка, примеры, сравнение с аналогами.

Обзор

M

MichiAI: как 530M параметров и Rectified Flow выжимают 75 мс из full-duplex речи на одной 4090

Технический разбор архитектуры MichiAI - речевой LLM на 530M параметров с Rectified Flow Matching и задержкой 75 мс для full-duplex диалога.

Обзор

A

ACE-Step 1.5: 2 секунды на генерацию песни и полная свобода от облаков

Полный обзор ACE-Step 1.5 — локальной модели генерации музыки, которая создает треки за 2 секунды на A100 с MIT лицензией. Сравнение с Suno, технические детали.

Обзор

P

Pocket TTS на Android: готовый APK, OBB и почему Mimi decoder тормозит на Helio G99

Готовый APK с Pocket TTS для Android, оптимизация под Snapdragon и Helio, сравнение производительности, решение проблем с Mimi decoder. Локальный TTS без интерн

Обзор

A

Amazon SageMaker Data Agent: автономный аналитик, который сам пишет SQL за врачей

Как автономный AI-агент от Amazon ускоряет исследования в медицине. Генерация SQL кода, когортный анализ и работа с реальными данными.

Обзор

Q

Qwen3-Coder-Next: китайский ответ на CodeLlama, который умеет думать как программист

Тестируем Qwen3-Coder-Next на реальных задачах, сравниваем с CodeLlama и DeepSeek-Coder. Кому подойдет новая модель для программирования.

Обзор

M

Mistral-Helcyon-Mercury-12b: локальная модель с тоном GPT-4o — тест и настройка

Тест Mistral-Helcyon-Mercury-12b - локальной модели с тоном GPT-4o. Сравнение, настройка GGUF, инференс на RTX 3060 12GB. Альтернатива Mistral и Qwen2.5.

Обзор

T

Tanaos Sentiment Analysis: крошечная модель, которая понимает иронию лучше маркетологов

Обзор Tanaos Sentiment Analysis — 500Мб модели для анализа тональности текста. Сравнение с аналогами, примеры работы через API, инструкция по локальному запуску

Обзор