Инструменты
Подборка AI-инструментов. Только то, что работает.
Unsloth выпустил MTP GGUF веса для Gemma 4: инструкция по использованию и сравнение квантований
Unsloth выпустил MTP GGUF веса для Gemma 4. Как загрузить, запустить и выбрать квантование (Q8, F16, BF16). Подробное сравнение и гайд.
Разбор исходного кода Claude Code v2.1.88: что правда, а что мифы об архитектуре агента
Детальный разбор исходного кода Claude Code v2.1.88. Опровергаем популярные мифы об архитектуре агента: монолитность, безопасность, queryLoop, стейт-менеджмент
proveKV: 36x lossless сжатие KV-кеша — когда VRAM кончается, а контекст растёт
Разбор proveKV: Rust-инструмент для сжатия KV-кеша в 36 раз без потерь точности. Полный пример кода, сравнение с Delta-KV, KVarN, nano-KvLLM. Экономия VRAM для
KVarN от Huawei: KV-кэш сжимается в 3-5 раз, а reasoning не тормозит
Новый метод квантования KV-кэша KVarN от Huawei сжимает данные в 3-5 раз для reasoning-задач, не замедляя инференс. Интеграция с vLLM одной строкой. Apache 2.0.
ESM Cambrian: открытая модель для дизайна белков, превзошедшая AlphaFold3 — обзор архитектуры и применение
Обзор ESM Cambrian — новой открытой модели Meta для дизайна белков. Сравнение с AlphaFold3, бенчмарк FoldBench, примеры использования в биоинформатике и разрабо
Headroom: бесплатный инструмент для сжатия промптов и RAG-данных с сокращением токенов до 95%
Обзор Headroom — open-source библиотеки, прокси и MCP-сервера для сжатия промптов и RAG-данных. Экономия токенов до 95% без потери качества. Примеры, сравнение
llama.cpp учится рисовать: Mermaid-диаграммы прямо в чате с интерактивным превью
Обзор новой фичи llama.cpp: теперь можно генерировать и редактировать Mermaid-диаграммы прямо в чате с локальной LLM. Сравнение с альтернативами, примеры, реком
Как ускорить инференс LLM в 2-6 раз: C++ бэкенд WarpGroup против паддинга
Разбор проблемы паддинга в батчинге LLM и готовое решение — C++ бэкенд WarpGroup. Бенчмарки показывают ускорение до 5.89x на GTX 1080 и 2x на H100. Код, примеры
DPO для OCR: как снизить дегенерацию текста на 87% с помощью Direct Preference Optimization
Как с помощью Direct Preference Optimization уменьшить повторения и галлюцинации в OCR. Пошаговый гайд с кодом на Python.
Apostate, Heretic и другие: битва инструментов абблации за свободу LLM
Бенчмарк инструментов абблации для снятия ограничений LLM. Сравниваем Apostate, Heretic и Obliteratus на Qwen 2.5 7B: метрики, скорость, глюки. Кому что подходи
Hermes Desktop: ИИ, который не просит денег и не лезет в облако. Обзор приложения, сделавшего локальный ИИ простым
Узнайте, как просто запустить локальную LLM на ПК с Hermes Desktop. Возможности, сравнение с аналогами, примеры использования и кому подойдет.
CodeGraph vs Graphify: как индексация кода экономит токены и ускоряет AI-агентов
Сравнение CodeGraph и Graphify: архитектура tree-sitter и SQLite+FTS5, бенчмарки -57% токенов, -71% tool calls, примеры использования и карта решений для AI-аге