Инструменты для работы с AI

П

Патч CUTLASS и настройки для ускорения Qwen3.5-397B в 5 раз на Blackwell GPU (до 282 токенов/с)

Экстремальная оптимизация Qwen3.5-397B MoE. Кастомное ядро, патч SM120, Docker-образ. 282 токена/с на Blackwell. Гайд по установке.

Обзор

A

ASI: локальный AI-ассистент для Android, который понимает прикосновения

Обзор open-source проекта ASI: локальный AI-ассистент для Android с сенсорным восприятием на базе Gemma 3. Работает без интернета, полностью приватно.

Обзор

R

Reprompt: ваш промпт останется в семье

Как анализировать и оценивать промпты для AI-кодинга локально с помощью Reprompt. TF-IDF, Ollama и полная приватность данных. Установка и примеры.

Обзор

A

Autoresearch Карпати в 2026: когда ИИ исследует сам себя

Разбираем autoresearch Карпати - систему автономных ML-экспериментов. Актуально на март 2026: установка, примеры, сравнение с альтернативами.

Обзор

I

IndexCache для vLLM/SGLang: Ускоряем DeepSeek-V3.2 до 1.8x за счёт кеширования индексов внимания

Патч IndexCache для vLLM и SGLang ускоряет sparse attention в DeepSeek-V3.2 до 1.82x, сокращая время prefill для больших контекстов.

Обзор

L

LocoTrainer-4B: как установить и использовать экспертного агента для фреймворка MS-SWIFT

Полное руководство по установке и использованию LocoTrainer-4B - экспертного агента для тонкой настройки моделей в фреймворке MS-SWIFT. Сравнение, примеры, реко

Обзор

M

Manga-Translator: Rust-приложение, которое переводит комиксы офлайн с помощью локальных LLM

Как Rust-приложение с YOLO, LaMa и локальными LLM переводит мангу без интернета. Обзор возможностей, сравнение с аналогами и примеры использования.

Обзор

S

SoyLM: Ваш приватный аналитик документов, который работает без интернета

Обзор SoyLM - open-source инструмента для анализа PDF, URL и YouTube с локальной LLM Nemotron-Nano-9B, RAG и веб-поиском. Полная приватность и контроль данных.

Обзор

C

Codebook Lossless Compression: новый метод сжатия LLM на 25% без потерь (обзор и инструкция)

Codebook Lossless Compression — прорывной метод сжатия LLM, который экономит 25% памяти без потери качества. Обзор технологии, сравнение с Sparse и QLoRA, инстр

Обзор

N

Nemotron-3-Super-120B Uncensored: запуск на MLX с LatentMoE и Mamba attention

Разбор Nemotron-3-Super-120B Uncensored: архитектура LatentMoE и Mamba attention, рекордные бенчмарки, квантование для MLX и практический запуск локально в 2026

Обзор

Н

Неофициальный Python-клиент для AlphaXiv: автоматизируем AI-ассистента научных статей

Как использовать неофициальный Python-клиент для AlphaXiv для автоматизации исследований. Примеры кода, сравнение с альтернативами, интеграция в пайплайны.

Обзор

h

htmLLM-124M v2: как запустить модель для автодополнения HTML на обычной видеокарте

Практическое руководство по установке и использованию htmLLM-124M v2 - нейросети для автодополнения HTML и Bootstrap кода. Работает даже на слабых видеокартах.

Обзор