Инструменты для работы с AI - AiManual
AiManual Logo Ai / Manual.

Инструменты

Подборка AI-инструментов. Только то, что работает.

C

Claude Platform on AWS: Полный гайд по настройке, IAM и биллингу

Как подключить Claude через AWS Marketplace, настроить IAM-аутентификацию, управлять агентами и отслеживать затраты. Полное руководство с примерами.

Обзор
M

MiniCPM-V 4.6: карманный осьминог, который видит больше, чем вы думаете

OpenBMB выпустила MiniCPM-V 4.6 — компактную мультимодальную модель с улучшенным OCR и пониманием сцен. Сравниваем с предшественником и конкурентами.

Обзор
E

ExLlamaV3 Major Updates: что нового, как обновить и почему это ускорит инференс

Разбираем крупное обновление ExLlamaV3: FP8, новый KV cache, скорость до 2x. Инструкция по обновлению и тесты на реальных моделях.

Обзор
T

TextWeb: Markdown-браузер для AI-агентов – альтернатива Vision моделям

TextWeb – open-source инструмент, который превращает веб-страницы в чистый Markdown. Экономит токены, работает локально, заменяет дорогие мультимодальные модели

Обзор
M

Multi-Agent AI для CNC-мастерских: разбор системы MachinaCheck на AMD MI300X

Разбираем MachinaCheck — multi-agent систему для анализа STEP-файлов на AMD MI300X. Сравнение с альтернативами, реальные кейсы, кому подойдёт.

Обзор
К

Как разогнать DeepSeek-V4-Flash до 85 токенов в секунду: MTP, W4A16 и RTX PRO 6000

Гайд по настройке DeepSeek-V4-Flash с MTP-спекуляцией и квантованием W4A16+FP8: 85 tok/s на двух RTX PRO 6000. Конфиг llama.cpp, профилирование GPU, сравнение с

Обзор
1

16 гигов для OCR в 2026: что реально влезет и как не нарваться на тормоза

Сравнение PaddleOCR, GLM-OCR, Nemotron OCR v2 и других моделей для видеокарт с 16 ГБ VRAM. Тесты на печатном тексте, рукописях и формулах. Рекомендации по выбор

Обзор
К

Как субъективно оценить скорость генерации LLM: скрипт для визуализации tokens/s

Узнайте, как скрипт визуализации токенов в секунду помогает реально ощутить скорость генерации LLM, сравнить квантования и избежать иллюзий бенчмарков.

Обзор
N

NCCL-Free Tensor Parallelism в llama.cpp: две Blackwell GPU работают без лишних танцев с бубном

Разбираем новую фичу llama.cpp b9095 — тензорный параллелизм без NCCL на двух Blackwell. Как это работает, кому нужно и почему проще, чем кажется.

Обзор
B

BarkingDog: как я гонял Telegram-бота на LLM через адский редтиминг

Разбираем BarkingDog — open-source утилиту для автоматического тестирования безопасности Telegram-ботов на базе LLM. Примеры атак, сравнение с аналогами и практ

Обзор
E

EMO: эмерджентная модульность в MoE — новая парадигма обучения языковых моделей

Разбираем EMO — новый подход к Mixture of Experts, который включает только 12.5% экспертов без балансировки нагрузки. Сравнение с DeepSeek, Qwen, анализ архитек

Обзор
d

ds4 WebUI: минимализм, который не бесит, или как antirez подарил нам UI для сервера из одного файла

Обзор ds4-webui — минималистичного веб-интерфейса для сервера ds4 от antirez. Сравнение с Oobabooga, Jan AI, LM Studio и Open WebUI, примеры использования, для

Обзор