Инструменты для работы с AI

К

Как ускорить инференс LLM в 2-6 раз: C++ бэкенд WarpGroup против паддинга

Разбор проблемы паддинга в батчинге LLM и готовое решение — C++ бэкенд WarpGroup. Бенчмарки показывают ускорение до 5.89x на GTX 1080 и 2x на H100. Код, примеры

Обзор

D

DPO для OCR: как снизить дегенерацию текста на 87% с помощью Direct Preference Optimization

Как с помощью Direct Preference Optimization уменьшить повторения и галлюцинации в OCR. Пошаговый гайд с кодом на Python.

Обзор

A

Apostate, Heretic и другие: битва инструментов абблации за свободу LLM

Бенчмарк инструментов абблации для снятия ограничений LLM. Сравниваем Apostate, Heretic и Obliteratus на Qwen 2.5 7B: метрики, скорость, глюки. Кому что подходи

Обзор

H

Hermes Desktop: ИИ, который не просит денег и не лезет в облако. Обзор приложения, сделавшего локальный ИИ простым

Узнайте, как просто запустить локальную LLM на ПК с Hermes Desktop. Возможности, сравнение с аналогами, примеры использования и кому подойдет.

Обзор

C

CodeGraph vs Graphify: как индексация кода экономит токены и ускоряет AI-агентов

Сравнение CodeGraph и Graphify: архитектура tree-sitter и SQLite+FTS5, бенчмарки -57% токенов, -71% tool calls, примеры использования и карта решений для AI-аге

Обзор

M

Microsoft ASSERT: Как заставить AI-агентов сдавать экзамены на естественном языке

Обзор фреймворка ASSERT от Microsoft: автоматическая генерация тестов для AI-агентов из текстовых описаний. Сравнение с альтернативами, примеры, рекомендации.

Обзор

1

1-bit Bonsai Image 4B и Ternary: два гигабайта, которые заменят видеокарту за 2000 баксов

Модели весом меньше 1.2 ГБ запускают генерацию картинок на процессоре, в браузере и на мобилах. Тестируем обе версии, сравниваем с FLUX и Qwen-Image.

Обзор

H

Holo3.1: Open-Source Computer-Use Agent with Quantized Local Inference – How to Run and Benchmarks

Запускаем Holo3.1 локально: квантизации FP8, GGUF, NVFP4, бенчмарки OSWorld 82.3%, сравнение с GPT-5.4 и Holo3. Инструкция для 3090/4090.

Обзор

R

ROCm в WSL2: собираем, запускаем, чиним. Инструкция для авантюристов с AMD

Полное руководство по сборке ROCm под WSL2 для AMD GPU. Известные ошибки, патчи, сравнение с CUDA. Запускаем AI-модели на Windows с AMD.

Обзор

М

Маршрутизация между маломодельными ASR: real-time мультиязычность на локальном железе без облаков

Как объединение маленьких моделей для разных языков с умным роутером дает real-time ASR на edge-устройствах. Сравнение с Whisper, Qwen3-ASR, Parakeet.

Обзор

M

Mellum2: 12B быстрого огня от JetBrains — MoE, который не тупит на коде

JetBrains выпустила Mellum2 — open-source 12B MoE модель с рекордной скоростью. Сравнение с CodeGemma, DeepSeek, Mistral. Примеры использования. Кому подойдет.

Обзор

m

mistral.rs v0.8.2: как получить до 2.8x ускорение CUDA инференса по сравнению с llama.cpp на H100, B200 и GB10

Разбираем бенчмарки mistral.rs v0.8.2 на H100, B200, GB10. Технологии за приростом до 2.8x и кому это нужно.

Обзор