Инструменты
Подборка AI-инструментов. Только то, что работает.
Snapcompact: как экономить токены, используя изображения вместо текста
Snapcompact — метод сжатия контекста: превращаем текст в картинку и платим меньше. Примеры, сравнение с альтернативами, реальный код.
Docling от IBM: как перестать ненавидеть PDF и построить локальный RAG
Установка, возможности, сравнение с PyMuPDF и Camelot. Примеры извлечения таблиц и текста. Когда Docling спасает enterprise-данные.
Supra1.5-50M: карманный мозг для офлайн-задач — тестируем экспериментальную модель с GGUF
Обзор экспериментальной модели Supra1.5-50M от SupraLabs: 50 млн параметров, расширенный контекст, GGUF-квантование. Инструкция по запуску через llama.cpp, срав
MiniMax M3: Sparse Attention, GGUF-квантование и запуск локальной модели с контекстом в 1 млн токенов
MiniMax M3 с архитектурой MSA и контекстом до 1M токенов. GGUF-квантования для запуска на домашнем ПК. Примеры использования и сравнение с Qwen 3.5, Claude.
Open Dungeon: локальный ролеплей с Gemma 4 QAT и встроенной генерацией изображений на 8 ГБ ОЗУ
Запустите свою RPG без интернета: Gemma 4 QAT, 256K контекст, генерация FLUX-изображений на 8 ГБ ОЗУ. Полный обзор и гайд.
Browser-use агент в WASM: как запустить браузерную автоматизацию бесплатно и без сервера
Обзор browser-use агента в WebAssembly: нулевая стоимость, работа в браузере, примеры кода, сравнение с альтернативами. Идеально для AI-агентов и автоматизации.
EAGLE3 в llama.cpp: ускоряем инференс языковых моделей с помощью speculative decoding до 5x
Как EAGLE3 в llama.cpp ускоряет локальный инференс моделей в 5 раз. Тесты на RTX 3090, сравнение с AETHER-X и ngram. Инструкция по запуску.
Дистилляция Wan 2.2: как модель Varya от Avataar AI генерирует видео в 10 раз быстрее и дешевле
Разбираем технику дистилляции Wan 2.2, которая позволила генерировать видео за 45 секунд на H200 по $0,005/сек. Сравнение с Sora и Kling, примеры для локального
MTPLX V1: Swift-ускоритель для Qwen 3.6 27B — 2x TPS без танцев с бубном
Обзор MTPLX V1 — нативного Swift-приложения для запуска MLX MTP-моделей на Apple Silicon. Двойной TPS на Qwen 3.6 27B, сравнение с LM Studio и llama.cpp.
OntoIndex: строим граф кода для ИИ-агентов с MCP и веб-интерфейсом
Обзор OntoIndex — инструмента для построения семантического графа кода. Сравнение с альтернативами, примеры использования, настройка MCP-сервера и веб-интерфейс
NuCS vs Choco: сравнение производительности Python- и Java-решателей для задач ограничений
Подробный бенчмарк двух решателей задач ограничений: чистый Python с Numba (NuCS) против зрелого Java-фреймворка (Choco). Код, команды, анализ производительност
Как добавить ASR bias для моделей транскрипции голоса: открытая реализация и пример кода
Практическое руководство по добавлению смещения (bias) в модели ASR для улучшения распознавания специфических слов. Код на Python для Whisper и других моделей.