Инструменты
Подборка AI-инструментов. Только то, что работает.
Tencent WeDLM-8B в chatllm.cpp: декодирование на грани и почему GPU иногда проигрывает
Подробный обзор запуска модели WeDLM-8B в chatllm.cpp: настройка параметров block_size, accept_algo, сравнение производительности CPU и GPU.
Gemma 3 1B Q4_0 GGUF: как правильно квантовать QAT-модель без imatrix
Пошаговая инструкция по правильному квантованию Gemma 3 1B в формат GGUF без использования imatrix. Исправление метаданных и токенизатора.
Baichuan-M3-235B: как медицинская LLM превзошла GPT-5.2 и какие техники снижают галлюцинации
Китайская модель Baichuan-M3-235B превзошла GPT-5.2 в медицинских тестах HealthBench. Как Fact-Aware RL и W4 квантование снижают галлюцинации.
Как превратить любое видео в книжку-раскладушку для ребёнка: туториал по Vid2BedtimeStory
Полный туториал по превращению видео в книжку-раскладушку для детей. Скриншоты, генерация текста, создание PDF. Локальные LLM и Google Play Books.
SurfSense: локальный ассистент, который не сливает ваши документы в облако
Как развернуть SurfSense - приватный RAG-ассистент с поддержкой 100+ LLM через Ollama. Полная инструкция по Docker-установке.
Сжатие вывода инструментов для AI-агентов: как сократить контекст на 70% и снизить стоимость
Открытая библиотека ToolTrim сжимает вывод инструментов AI-агентов на 60-70%, снижая стоимость inference. Статистическая фильтрация и удаление избыточных данных
MCP Hangar: как настроить единую систему управления серверами MCP для локальных LLM
Настройка MCP Hangar - единой системы управления серверами MCP для локальных языковых моделей. Ленивая загрузка, мониторинг, Docker
GitNexus: браузерный графовый движок, который заставит Cursor и Claude Code понимать ваш код
Настройте GitNexus - opensource графовый движок анализа зависимостей кода в браузере. Работает с MCP, предотвращает breaking changes для AI-ассистентов.
Обзор мультимодальных моделей для локального запуска: LTX-2, Music Flamingo, Qwen3-VL и другие
Полный обзор мультимодальных моделей для запуска на своём ПК: видео с аудио, анализ музыки, понимание изображений. Сравнение, требования к железу и практическое
CausaNova: Заставьте LLM врать с доказательствами, а не галлюцинировать
Как нейро-символический ИИ CausaNova связывает Qwen с SMT-солвером для формальной верификации документов. Код, подход, убийство галлюцинаций.
Пишем свой vLLM на коленке: как заставить LFM-модели летать в батче
Разбор архитектуры Liquid Foundational Models, реализация гибридного кэширования KV-cache и ragged prefill. Ускоряем inference в 50 раз на RTX 3090.
Файл в 152KB заставит вашу локальную LLM работать как научный ассистент
Превратите любую локальную модель в интерактивный исследовательский инструмент с помощью одного JSON-файла на 152KB. Секрет сжатия знаний.