Инструменты
Подборка AI-инструментов. Только то, что работает.
Как ускорить инференс LLM в 2-6 раз: C++ бэкенд WarpGroup против паддинга
Разбор проблемы паддинга в батчинге LLM и готовое решение — C++ бэкенд WarpGroup. Бенчмарки показывают ускорение до 5.89x на GTX 1080 и 2x на H100. Код, примеры
DPO для OCR: как снизить дегенерацию текста на 87% с помощью Direct Preference Optimization
Как с помощью Direct Preference Optimization уменьшить повторения и галлюцинации в OCR. Пошаговый гайд с кодом на Python.
Apostate, Heretic и другие: битва инструментов абблации за свободу LLM
Бенчмарк инструментов абблации для снятия ограничений LLM. Сравниваем Apostate, Heretic и Obliteratus на Qwen 2.5 7B: метрики, скорость, глюки. Кому что подходи
Hermes Desktop: ИИ, который не просит денег и не лезет в облако. Обзор приложения, сделавшего локальный ИИ простым
Узнайте, как просто запустить локальную LLM на ПК с Hermes Desktop. Возможности, сравнение с аналогами, примеры использования и кому подойдет.
CodeGraph vs Graphify: как индексация кода экономит токены и ускоряет AI-агентов
Сравнение CodeGraph и Graphify: архитектура tree-sitter и SQLite+FTS5, бенчмарки -57% токенов, -71% tool calls, примеры использования и карта решений для AI-аге
Microsoft ASSERT: Как заставить AI-агентов сдавать экзамены на естественном языке
Обзор фреймворка ASSERT от Microsoft: автоматическая генерация тестов для AI-агентов из текстовых описаний. Сравнение с альтернативами, примеры, рекомендации.
1-bit Bonsai Image 4B и Ternary: два гигабайта, которые заменят видеокарту за 2000 баксов
Модели весом меньше 1.2 ГБ запускают генерацию картинок на процессоре, в браузере и на мобилах. Тестируем обе версии, сравниваем с FLUX и Qwen-Image.
Holo3.1: Open-Source Computer-Use Agent with Quantized Local Inference – How to Run and Benchmarks
Запускаем Holo3.1 локально: квантизации FP8, GGUF, NVFP4, бенчмарки OSWorld 82.3%, сравнение с GPT-5.4 и Holo3. Инструкция для 3090/4090.
ROCm в WSL2: собираем, запускаем, чиним. Инструкция для авантюристов с AMD
Полное руководство по сборке ROCm под WSL2 для AMD GPU. Известные ошибки, патчи, сравнение с CUDA. Запускаем AI-модели на Windows с AMD.
Маршрутизация между маломодельными ASR: real-time мультиязычность на локальном железе без облаков
Как объединение маленьких моделей для разных языков с умным роутером дает real-time ASR на edge-устройствах. Сравнение с Whisper, Qwen3-ASR, Parakeet.
Mellum2: 12B быстрого огня от JetBrains — MoE, который не тупит на коде
JetBrains выпустила Mellum2 — open-source 12B MoE модель с рекордной скоростью. Сравнение с CodeGemma, DeepSeek, Mistral. Примеры использования. Кому подойдет.
mistral.rs v0.8.2: как получить до 2.8x ускорение CUDA инференса по сравнению с llama.cpp на H100, B200 и GB10
Разбираем бенчмарки mistral.rs v0.8.2 на H100, B200, GB10. Технологии за приростом до 2.8x и кому это нужно.