Инструменты
Подборка AI-инструментов. Только то, что работает.
Семантический кэш для RAG на AlloyDB Omni: настройка ScaNN и экономия токенов
Практический гайд по настройке семантического кэша для RAG-систем с использованием AlloyDB Omni и ScaNN индекса. Экономьте до 70% токенов, кэшируя похожие вопро
Агенты Codex и Claude пишут CUDA-ядра для трансформеров: как работает skill для автоматизации низкоуровневой оптимизации
Как агенты Codex и Claude автоматически генерируют оптимизированные CUDA-ядра для трансформеров. Skill для низкоуровневой оптимизации, интеграция с Kernel Hub и
Perplex: как заставить LLM показать, где она врёт
Perplex — Rust-инструмент для визуализации предсказаний LLM по токенам. Анализируем, где модель не уверена или ошибается. Работает с любыми GGUF моделями.
Baichuan-M3: как запустить медицинскую модель для сбора анамнеза на своём сервере
Полное руководство по установке Baichuan-M3 - медицинской LLM с открытыми весами для сбора анамнеза. Сравнение с альтернативами, требования к железу и практичес
P1-235B-A22B: как открытая модель победила на физической олимпиаде и где скачать веса
Как открытая модель P1-235B-A22B от Shanghai AI Laboratory получила золото на IPhO 2026. Скачать веса на HuggingFace, возможности и примеры использования Physic
AdaLLM: Полное руководство по запуску NVFP4-моделей на RTX 4090 с FP8 KV-кэшем и кастомным ядром
Подробное руководство по установке и использованию AdaLLM для запуска квантованных моделей на RTX 4090 с оптимизациями FP8 KV-кэша и кастомным ядром Triton.
SnapLLM: Как мгновенно переключаться между локальными LLM и SD моделями без перезагрузки
Обзор SnapLLM — инструмента для мгновенного переключения между локальными LLM и Stable Diffusion моделями без перезагрузки. Архитектура vPID, три уровня памяти,
EdgeDox и MNN: как запустить полноценный RAG с LLM офлайн на Android
Обзор EdgeDox — приложения для запуска RAG с локальной LLM на Android с использованием движка MNN. Приватность, офлайн работа, квантованные модели.
Qwen3-TTS.cpp: ускорение TTS в 4 раза на CPU и Apple Silicon
Обзор Qwen3-TTS.cpp: ускорение TTS в 4 раза, поддержка Metal/CoreML, голосовой клон. Локальный синтез речи без облаков для разработчиков.
Перплексия под микроскопом: как разобрать LLM по токенам с помощью Perplex
Практическое руководство по анализу перплексии LLM по каждому токену. Установка Perplex, работа с GGUF моделями, интерпретация результатов для разработчиков.
Heretic 1.2: как снизить потребление VRAM на 70% для снятия цензуры с языковых моделей
Обзор Heretic 1.2 — инструмента для снятия цензуры с языковых моделей с экономией VRAM на 70%. Квантование bitsandbytes, LoRA, Magnitude-Preserving Orthogonal A
Nemotron Nano 12B v2 VL: когда NVIDIA заставила маленькую модель понимать видео
NVIDIA выпустила коммерчески готовую мультимодальную модель для анализа видео и документов. Обзор возможностей, сравнение с альтернативами и примеры использован