Инструменты для работы с AI

D

Dreaming Engine: как обратный обход графа спасает RAG от катастрофического забывания

Как работает Dreaming Engine на основе Inverse Graph Traversal для решения проблемы катастрофического забывания в RAG-системах. Практическое руководство на 2026

Обзор

U

UI-TARS от Bytedance: локальный агент, который щелкает твой рабочий стол как орехи

Полный обзор UI-TARS от Bytedance — локального AI-агента с моделью 7B для автоматизации задач на рабочем столе. Установка, сравнение, примеры использования.

Обзор

M

Mycelium Memory Hub: как настроить персистентную память и общение между AI-агентами в реальном времени

Настройка Mycelium Memory Hub - SQLite/PostgreSQL хранилище с WebSocket и MCP-серверами для общения AI-агентов в реальном времени. Готовое решение для контекста

Обзор

M

MCP в llama.cpp: от экспериментальной фичи до полноценного агента

Полный гайд по интеграции Model Context Protocol в llama.cpp. Установка, настройка CORS Proxy, Tool Calls, System Message injection и создание автономных агенто

Обзор

A

Aratta: суверенный слой для AI-провайдеров, который не сломается, когда OpenAI упадет

Обзор Aratta - open-source решения для создания отказоустойчивого AI-слоя с локальными моделями и резервным облаком. Архитектура, сравнение с LiteLLM, примеры.

Обзор

M

MemV: память для AI-агентов, которая учится на ошибках предсказаний

Установка и использование MemV — open-source памяти для AI-агентов с predict-calibrate extraction. Би-временная модель, гибридный поиск RRF, борьба с зашумлённо

Обзор

M

MLX Omni Engine: как запускать аудио- и эмбеддинг-модели на Apple Silicon вместо GGUF

Обзор MLX Omni Engine для локального запуска аудио и эмбеддинг-моделей на Mac. Сравнение с Ollama, установка и примеры использования.

Обзор

K

Ktop: один терминал вместо двух, или как следить за локальной LLM без шизофрении

Обзор Ktop — гибридного монитора для CPU и GPU, который заменяет btop и nvtop при работе с локальными LLM. Установка, настройка, сравнение.

Обзор

N

NanoQuant: когда 0.75 бита на вес — это не шутка, а реальность

Технический обзор NanoQuant — метода квантования ниже 1 бита на вес. Сравнение с GPTQ, примеры использования и кому подойдет экстремальное сжатие моделей в 2026

Обзор

O

OpenResearcher: ваш личный офлайн-исследователь, который бьёт GPT-4.1. И это не шутка

Как запустить OpenResearcher - 30B-параметровый офлайн-агент, который обходит GPT-4.1 на BrowseComp-Plus. Руководство, сравнение, установка.

Обзор

U

Unsloth научился ускорять MoE-модели в 12 раз: как Triton kernels ломают физику VRAM

Обзор Triton оптимизаций Unsloth для MoE-моделей: 12x ускорение обучения, экономия 30% памяти, поддержка Qwen3 и DeepSeek на 10.02.2026

Обзор

G

Gemini CLI Proxy: ваш личный шлюз к Google AI без головной боли

Пошаговый гайд по настройке Gemini CLI Proxy с OpenAI-совместимым API, дашбордом и управлением ключами. Запускаем прокси-сервер для Gemini 3 за 10 минут.

Обзор