Инструменты
Подборка AI-инструментов. Только то, что работает.
Патч CUTLASS и настройки для ускорения Qwen3.5-397B в 5 раз на Blackwell GPU (до 282 токенов/с)
Экстремальная оптимизация Qwen3.5-397B MoE. Кастомное ядро, патч SM120, Docker-образ. 282 токена/с на Blackwell. Гайд по установке.
ASI: локальный AI-ассистент для Android, который понимает прикосновения
Обзор open-source проекта ASI: локальный AI-ассистент для Android с сенсорным восприятием на базе Gemma 3. Работает без интернета, полностью приватно.
Reprompt: ваш промпт останется в семье
Как анализировать и оценивать промпты для AI-кодинга локально с помощью Reprompt. TF-IDF, Ollama и полная приватность данных. Установка и примеры.
Autoresearch Карпати в 2026: когда ИИ исследует сам себя
Разбираем autoresearch Карпати - систему автономных ML-экспериментов. Актуально на март 2026: установка, примеры, сравнение с альтернативами.
IndexCache для vLLM/SGLang: Ускоряем DeepSeek-V3.2 до 1.8x за счёт кеширования индексов внимания
Патч IndexCache для vLLM и SGLang ускоряет sparse attention в DeepSeek-V3.2 до 1.82x, сокращая время prefill для больших контекстов.
LocoTrainer-4B: как установить и использовать экспертного агента для фреймворка MS-SWIFT
Полное руководство по установке и использованию LocoTrainer-4B - экспертного агента для тонкой настройки моделей в фреймворке MS-SWIFT. Сравнение, примеры, реко
Manga-Translator: Rust-приложение, которое переводит комиксы офлайн с помощью локальных LLM
Как Rust-приложение с YOLO, LaMa и локальными LLM переводит мангу без интернета. Обзор возможностей, сравнение с аналогами и примеры использования.
SoyLM: Ваш приватный аналитик документов, который работает без интернета
Обзор SoyLM - open-source инструмента для анализа PDF, URL и YouTube с локальной LLM Nemotron-Nano-9B, RAG и веб-поиском. Полная приватность и контроль данных.
Codebook Lossless Compression: новый метод сжатия LLM на 25% без потерь (обзор и инструкция)
Codebook Lossless Compression — прорывной метод сжатия LLM, который экономит 25% памяти без потери качества. Обзор технологии, сравнение с Sparse и QLoRA, инстр
Nemotron-3-Super-120B Uncensored: запуск на MLX с LatentMoE и Mamba attention
Разбор Nemotron-3-Super-120B Uncensored: архитектура LatentMoE и Mamba attention, рекордные бенчмарки, квантование для MLX и практический запуск локально в 2026
Неофициальный Python-клиент для AlphaXiv: автоматизируем AI-ассистента научных статей
Как использовать неофициальный Python-клиент для AlphaXiv для автоматизации исследований. Примеры кода, сравнение с альтернативами, интеграция в пайплайны.
htmLLM-124M v2: как запустить модель для автодополнения HTML на обычной видеокарте
Практическое руководство по установке и использованию htmLLM-124M v2 - нейросети для автодополнения HTML и Bootstrap кода. Работает даже на слабых видеокартах.