Инструменты для работы с AI

S

Snapcompact: как экономить токены, используя изображения вместо текста

Snapcompact — метод сжатия контекста: превращаем текст в картинку и платим меньше. Примеры, сравнение с альтернативами, реальный код.

Обзор

D

Docling от IBM: как перестать ненавидеть PDF и построить локальный RAG

Установка, возможности, сравнение с PyMuPDF и Camelot. Примеры извлечения таблиц и текста. Когда Docling спасает enterprise-данные.

Обзор

S

Supra1.5-50M: карманный мозг для офлайн-задач — тестируем экспериментальную модель с GGUF

Обзор экспериментальной модели Supra1.5-50M от SupraLabs: 50 млн параметров, расширенный контекст, GGUF-квантование. Инструкция по запуску через llama.cpp, срав

Обзор

M

MiniMax M3: Sparse Attention, GGUF-квантование и запуск локальной модели с контекстом в 1 млн токенов

MiniMax M3 с архитектурой MSA и контекстом до 1M токенов. GGUF-квантования для запуска на домашнем ПК. Примеры использования и сравнение с Qwen 3.5, Claude.

Обзор

O

Open Dungeon: локальный ролеплей с Gemma 4 QAT и встроенной генерацией изображений на 8 ГБ ОЗУ

Запустите свою RPG без интернета: Gemma 4 QAT, 256K контекст, генерация FLUX-изображений на 8 ГБ ОЗУ. Полный обзор и гайд.

Обзор

B

Browser-use агент в WASM: как запустить браузерную автоматизацию бесплатно и без сервера

Обзор browser-use агента в WebAssembly: нулевая стоимость, работа в браузере, примеры кода, сравнение с альтернативами. Идеально для AI-агентов и автоматизации.

Обзор

E

EAGLE3 в llama.cpp: ускоряем инференс языковых моделей с помощью speculative decoding до 5x

Как EAGLE3 в llama.cpp ускоряет локальный инференс моделей в 5 раз. Тесты на RTX 3090, сравнение с AETHER-X и ngram. Инструкция по запуску.

Обзор

Д

Дистилляция Wan 2.2: как модель Varya от Avataar AI генерирует видео в 10 раз быстрее и дешевле

Разбираем технику дистилляции Wan 2.2, которая позволила генерировать видео за 45 секунд на H200 по $0,005/сек. Сравнение с Sora и Kling, примеры для локального

Обзор

M

MTPLX V1: Swift-ускоритель для Qwen 3.6 27B — 2x TPS без танцев с бубном

Обзор MTPLX V1 — нативного Swift-приложения для запуска MLX MTP-моделей на Apple Silicon. Двойной TPS на Qwen 3.6 27B, сравнение с LM Studio и llama.cpp.

Обзор

O

OntoIndex: строим граф кода для ИИ-агентов с MCP и веб-интерфейсом

Обзор OntoIndex — инструмента для построения семантического графа кода. Сравнение с альтернативами, примеры использования, настройка MCP-сервера и веб-интерфейс

Обзор

N

NuCS vs Choco: сравнение производительности Python- и Java-решателей для задач ограничений

Подробный бенчмарк двух решателей задач ограничений: чистый Python с Numba (NuCS) против зрелого Java-фреймворка (Choco). Код, команды, анализ производительност

Обзор

К

Как добавить ASR bias для моделей транскрипции голоса: открытая реализация и пример кода

Практическое руководство по добавлению смещения (bias) в модели ASR для улучшения распознавания специфических слов. Код на Python для Whisper и других моделей.

Обзор