Инструменты
Подборка AI-инструментов. Только то, что работает.
Dreaming Engine: как обратный обход графа спасает RAG от катастрофического забывания
Как работает Dreaming Engine на основе Inverse Graph Traversal для решения проблемы катастрофического забывания в RAG-системах. Практическое руководство на 2026
UI-TARS от Bytedance: локальный агент, который щелкает твой рабочий стол как орехи
Полный обзор UI-TARS от Bytedance — локального AI-агента с моделью 7B для автоматизации задач на рабочем столе. Установка, сравнение, примеры использования.
Mycelium Memory Hub: как настроить персистентную память и общение между AI-агентами в реальном времени
Настройка Mycelium Memory Hub - SQLite/PostgreSQL хранилище с WebSocket и MCP-серверами для общения AI-агентов в реальном времени. Готовое решение для контекста
MCP в llama.cpp: от экспериментальной фичи до полноценного агента
Полный гайд по интеграции Model Context Protocol в llama.cpp. Установка, настройка CORS Proxy, Tool Calls, System Message injection и создание автономных агенто
Aratta: суверенный слой для AI-провайдеров, который не сломается, когда OpenAI упадет
Обзор Aratta - open-source решения для создания отказоустойчивого AI-слоя с локальными моделями и резервным облаком. Архитектура, сравнение с LiteLLM, примеры.
MemV: память для AI-агентов, которая учится на ошибках предсказаний
Установка и использование MemV — open-source памяти для AI-агентов с predict-calibrate extraction. Би-временная модель, гибридный поиск RRF, борьба с зашумлённо
MLX Omni Engine: как запускать аудио- и эмбеддинг-модели на Apple Silicon вместо GGUF
Обзор MLX Omni Engine для локального запуска аудио и эмбеддинг-моделей на Mac. Сравнение с Ollama, установка и примеры использования.
Ktop: один терминал вместо двух, или как следить за локальной LLM без шизофрении
Обзор Ktop — гибридного монитора для CPU и GPU, который заменяет btop и nvtop при работе с локальными LLM. Установка, настройка, сравнение.
NanoQuant: когда 0.75 бита на вес — это не шутка, а реальность
Технический обзор NanoQuant — метода квантования ниже 1 бита на вес. Сравнение с GPTQ, примеры использования и кому подойдет экстремальное сжатие моделей в 2026
OpenResearcher: ваш личный офлайн-исследователь, который бьёт GPT-4.1. И это не шутка
Как запустить OpenResearcher - 30B-параметровый офлайн-агент, который обходит GPT-4.1 на BrowseComp-Plus. Руководство, сравнение, установка.
Unsloth научился ускорять MoE-модели в 12 раз: как Triton kernels ломают физику VRAM
Обзор Triton оптимизаций Unsloth для MoE-моделей: 12x ускорение обучения, экономия 30% памяти, поддержка Qwen3 и DeepSeek на 10.02.2026
Gemini CLI Proxy: ваш личный шлюз к Google AI без головной боли
Пошаговый гайд по настройке Gemini CLI Proxy с OpenAI-совместимым API, дашбордом и управлением ключами. Запускаем прокси-сервер для Gemini 3 за 10 минут.