Инструменты для работы с AI

U

Unsloth выпустил MTP GGUF веса для Gemma 4: инструкция по использованию и сравнение квантований

Unsloth выпустил MTP GGUF веса для Gemma 4. Как загрузить, запустить и выбрать квантование (Q8, F16, BF16). Подробное сравнение и гайд.

Обзор

Р

Разбор исходного кода Claude Code v2.1.88: что правда, а что мифы об архитектуре агента

Детальный разбор исходного кода Claude Code v2.1.88. Опровергаем популярные мифы об архитектуре агента: монолитность, безопасность, queryLoop, стейт-менеджмент

Обзор

p

proveKV: 36x lossless сжатие KV-кеша — когда VRAM кончается, а контекст растёт

Разбор proveKV: Rust-инструмент для сжатия KV-кеша в 36 раз без потерь точности. Полный пример кода, сравнение с Delta-KV, KVarN, nano-KvLLM. Экономия VRAM для

Обзор

K

KVarN от Huawei: KV-кэш сжимается в 3-5 раз, а reasoning не тормозит

Новый метод квантования KV-кэша KVarN от Huawei сжимает данные в 3-5 раз для reasoning-задач, не замедляя инференс. Интеграция с vLLM одной строкой. Apache 2.0.

Обзор

E

ESM Cambrian: открытая модель для дизайна белков, превзошедшая AlphaFold3 — обзор архитектуры и применение

Обзор ESM Cambrian — новой открытой модели Meta для дизайна белков. Сравнение с AlphaFold3, бенчмарк FoldBench, примеры использования в биоинформатике и разрабо

Обзор

H

Headroom: бесплатный инструмент для сжатия промптов и RAG-данных с сокращением токенов до 95%

Обзор Headroom — open-source библиотеки, прокси и MCP-сервера для сжатия промптов и RAG-данных. Экономия токенов до 95% без потери качества. Примеры, сравнение

Обзор

l

llama.cpp учится рисовать: Mermaid-диаграммы прямо в чате с интерактивным превью

Обзор новой фичи llama.cpp: теперь можно генерировать и редактировать Mermaid-диаграммы прямо в чате с локальной LLM. Сравнение с альтернативами, примеры, реком

Обзор

К

Как ускорить инференс LLM в 2-6 раз: C++ бэкенд WarpGroup против паддинга

Разбор проблемы паддинга в батчинге LLM и готовое решение — C++ бэкенд WarpGroup. Бенчмарки показывают ускорение до 5.89x на GTX 1080 и 2x на H100. Код, примеры

Обзор

D

DPO для OCR: как снизить дегенерацию текста на 87% с помощью Direct Preference Optimization

Как с помощью Direct Preference Optimization уменьшить повторения и галлюцинации в OCR. Пошаговый гайд с кодом на Python.

Обзор

A

Apostate, Heretic и другие: битва инструментов абблации за свободу LLM

Бенчмарк инструментов абблации для снятия ограничений LLM. Сравниваем Apostate, Heretic и Obliteratus на Qwen 2.5 7B: метрики, скорость, глюки. Кому что подходи

Обзор

H

Hermes Desktop: ИИ, который не просит денег и не лезет в облако. Обзор приложения, сделавшего локальный ИИ простым

Узнайте, как просто запустить локальную LLM на ПК с Hermes Desktop. Возможности, сравнение с аналогами, примеры использования и кому подойдет.

Обзор

C

CodeGraph vs Graphify: как индексация кода экономит токены и ускоряет AI-агентов

Сравнение CodeGraph и Graphify: архитектура tree-sitter и SQLite+FTS5, бенчмарки -57% токенов, -71% tool calls, примеры использования и карта решений для AI-аге

Обзор