Инструменты для работы с AI

T

Tencent WeDLM-8B в chatllm.cpp: декодирование на грани и почему GPU иногда проигрывает

Подробный обзор запуска модели WeDLM-8B в chatllm.cpp: настройка параметров block_size, accept_algo, сравнение производительности CPU и GPU.

Обзор

G

Gemma 3 1B Q4_0 GGUF: как правильно квантовать QAT-модель без imatrix

Пошаговая инструкция по правильному квантованию Gemma 3 1B в формат GGUF без использования imatrix. Исправление метаданных и токенизатора.

Обзор

B

Baichuan-M3-235B: как медицинская LLM превзошла GPT-5.2 и какие техники снижают галлюцинации

Китайская модель Baichuan-M3-235B превзошла GPT-5.2 в медицинских тестах HealthBench. Как Fact-Aware RL и W4 квантование снижают галлюцинации.

Обзор

К

Как превратить любое видео в книжку-раскладушку для ребёнка: туториал по Vid2BedtimeStory

Полный туториал по превращению видео в книжку-раскладушку для детей. Скриншоты, генерация текста, создание PDF. Локальные LLM и Google Play Books.

Обзор

S

SurfSense: локальный ассистент, который не сливает ваши документы в облако

Как развернуть SurfSense - приватный RAG-ассистент с поддержкой 100+ LLM через Ollama. Полная инструкция по Docker-установке.

Обзор

С

Сжатие вывода инструментов для AI-агентов: как сократить контекст на 70% и снизить стоимость

Открытая библиотека ToolTrim сжимает вывод инструментов AI-агентов на 60-70%, снижая стоимость inference. Статистическая фильтрация и удаление избыточных данных

Обзор

M

MCP Hangar: как настроить единую систему управления серверами MCP для локальных LLM

Настройка MCP Hangar - единой системы управления серверами MCP для локальных языковых моделей. Ленивая загрузка, мониторинг, Docker

Обзор

G

GitNexus: браузерный графовый движок, который заставит Cursor и Claude Code понимать ваш код

Настройте GitNexus - opensource графовый движок анализа зависимостей кода в браузере. Работает с MCP, предотвращает breaking changes для AI-ассистентов.

Обзор

О

Обзор мультимодальных моделей для локального запуска: LTX-2, Music Flamingo, Qwen3-VL и другие

Полный обзор мультимодальных моделей для запуска на своём ПК: видео с аудио, анализ музыки, понимание изображений. Сравнение, требования к железу и практическое

Обзор

C

CausaNova: Заставьте LLM врать с доказательствами, а не галлюцинировать

Как нейро-символический ИИ CausaNova связывает Qwen с SMT-солвером для формальной верификации документов. Код, подход, убийство галлюцинаций.

Обзор

П

Пишем свой vLLM на коленке: как заставить LFM-модели летать в батче

Разбор архитектуры Liquid Foundational Models, реализация гибридного кэширования KV-cache и ragged prefill. Ускоряем inference в 50 раз на RTX 3090.

Обзор

Ф

Файл в 152KB заставит вашу локальную LLM работать как научный ассистент

Превратите любую локальную модель в интерактивный исследовательский инструмент с помощью одного JSON-файла на 152KB. Секрет сжатия знаний.

Обзор