Инструменты для работы с AI

С

Семантический кэш для RAG на AlloyDB Omni: настройка ScaNN и экономия токенов

Практический гайд по настройке семантического кэша для RAG-систем с использованием AlloyDB Omni и ScaNN индекса. Экономьте до 70% токенов, кэшируя похожие вопро

Обзор

А

Агенты Codex и Claude пишут CUDA-ядра для трансформеров: как работает skill для автоматизации низкоуровневой оптимизации

Как агенты Codex и Claude автоматически генерируют оптимизированные CUDA-ядра для трансформеров. Skill для низкоуровневой оптимизации, интеграция с Kernel Hub и

Обзор

P

Perplex: как заставить LLM показать, где она врёт

Perplex — Rust-инструмент для визуализации предсказаний LLM по токенам. Анализируем, где модель не уверена или ошибается. Работает с любыми GGUF моделями.

Обзор

B

Baichuan-M3: как запустить медицинскую модель для сбора анамнеза на своём сервере

Полное руководство по установке Baichuan-M3 - медицинской LLM с открытыми весами для сбора анамнеза. Сравнение с альтернативами, требования к железу и практичес

Обзор

P

P1-235B-A22B: как открытая модель победила на физической олимпиаде и где скачать веса

Как открытая модель P1-235B-A22B от Shanghai AI Laboratory получила золото на IPhO 2026. Скачать веса на HuggingFace, возможности и примеры использования Physic

Обзор

A

AdaLLM: Полное руководство по запуску NVFP4-моделей на RTX 4090 с FP8 KV-кэшем и кастомным ядром

Подробное руководство по установке и использованию AdaLLM для запуска квантованных моделей на RTX 4090 с оптимизациями FP8 KV-кэша и кастомным ядром Triton.

Обзор

S

SnapLLM: Как мгновенно переключаться между локальными LLM и SD моделями без перезагрузки

Обзор SnapLLM — инструмента для мгновенного переключения между локальными LLM и Stable Diffusion моделями без перезагрузки. Архитектура vPID, три уровня памяти,

Обзор

E

EdgeDox и MNN: как запустить полноценный RAG с LLM офлайн на Android

Обзор EdgeDox — приложения для запуска RAG с локальной LLM на Android с использованием движка MNN. Приватность, офлайн работа, квантованные модели.

Обзор

Q

Qwen3-TTS.cpp: ускорение TTS в 4 раза на CPU и Apple Silicon

Обзор Qwen3-TTS.cpp: ускорение TTS в 4 раза, поддержка Metal/CoreML, голосовой клон. Локальный синтез речи без облаков для разработчиков.

Обзор

П

Перплексия под микроскопом: как разобрать LLM по токенам с помощью Perplex

Практическое руководство по анализу перплексии LLM по каждому токену. Установка Perplex, работа с GGUF моделями, интерпретация результатов для разработчиков.

Обзор

H

Heretic 1.2: как снизить потребление VRAM на 70% для снятия цензуры с языковых моделей

Обзор Heretic 1.2 — инструмента для снятия цензуры с языковых моделей с экономией VRAM на 70%. Квантование bitsandbytes, LoRA, Magnitude-Preserving Orthogonal A

Обзор

N

Nemotron Nano 12B v2 VL: когда NVIDIA заставила маленькую модель понимать видео

NVIDIA выпустила коммерчески готовую мультимодальную модель для анализа видео и документов. Обзор возможностей, сравнение с альтернативами и примеры использован

Обзор