Инструменты для работы с AI - AiManual
AiManual Logo Ai / Manual.

Инструменты

Подборка AI-инструментов. Только то, что работает.

S

Solidity LM на основе Qwen 3.6 превзошёл Opus: как запустить модель 27B для смарт-контрактов

Новинка: Solidity LM на Qwen 3.6 - 27B модель обходит Opus. Гайд по запуску, сравнение с альтернативами и примеры для разработчиков смарт-контрактов.

Обзор
S

SocratiCode: MCP-сервер, который научит ИИ-агента шарить в вашем коде

Обзор SocratiCode — open-source MCP-сервера для семантического поиска по коду. AST-чанкинг, гибридный search (Qdrant + Ollama), сравнение с Ragex и Code-memory.

Обзор
C

CopilotKit и AG-UI: как интегрировать AI-агентов в UI с открытым протоколом

Разбираем CopilotKit и AG-UI — связку для встраивания AI-агентов в интерфейсы. Streaming, state sharing, человеко-в-цикле. Сравнение с альтернативами и примеры

Обзор
V

VibeVoice.cpp: Microsoft VibeVoice на стероидах — локальный speech-to-speech без Python и облаков

Запускаем VibeVoice.cpp — порт Microsoft VibeVoice на ggml/C++ с поддержкой CPU, CUDA, Metal, Vulkan. Без Python, с квантованием и voice cloning. Сравнение с ал

Обзор
M

MTPLX: ускорение инференса на Apple Silicon в 2.24 раза — обзор нового MTP-движка

Разбор MTPLX — нативного MTP-движка для Apple Silicon, который ускоряет инференс в 2.24 раза. Бенчмарки, сравнение с llama.cpp и mlx-lm, примеры запуска на M5 M

Обзор
F

FastDMS: как сжать KV-cache в 6 раз и ускорить инференс — обзор открытой реализации и бенчмарков

Разбор открытой реализации Dynamic Memory Sparsification (FastDMS): сжатие KV-cache в 6 раз, ускорение инференса на 30% против vLLM. Примеры, бенчмарки, сравнен

Обзор
A

APEX MoE квантизация: 30+ моделей с ускорением до 33% и новый ультра-сжатый I-Nano уровень

Обзор APEX — MoE-aware mixed-precision квантизация. Ускорение до 33%, поддержка 30+ моделей, ультра-сжатый уровень I-Nano. Сравнение с аналогами, тесты скорости

Обзор
D

DGX Spark + M3 Ultra: собираем распределённый инференс с разделением prefill/decode на llama.cpp

Эксперимент: разъединяем prefill и decode между DGX Spark и M3 Ultra на llama.cpp. Результаты, команды, узкие места — для тех, кто хочет выжать максимум из гете

Обзор
L

LLMSearchIndex: 200 миллионов страниц для локального RAG — Tavily и Perplexity больше не нужны?

LLMSearchIndex — open-source библиотека с 200 млн проиндексированных страниц для локального веб-поиска в RAG-пайплайнах. Сравнение с альтернативами, примеры код

Обзор
L

Llama.cpp MTP: как включить Multi-Token Prediction в бета-версии для ускорения инференса

Как активировать MTP в бета-сборке llama.cpp? Инструкция, тесты скорости на Qwen и Llama, сравнение с mlx-lm и vLLM. Ускорение до 2x на слабом железе.

Обзор
С

Создаём AI-репетитора по английскому на Go с Clean Architecture и четырьмя LLM: полный разбор кода

Подробный гайд по созданию AI-репетитора английского языка на Go: Clean Architecture, интеграция GPT-4o, Claude, Mistral, Gemini. Архитектура, примеры кода, сра

Обзор
H

Hummingbird+: FPGA-ускоритель для LLM за $150 – обзор производительности Qwen3-30B-A3B Q4 на 24GB

FPGA-ускоритель Hummingbird+ запускает Qwen3-30B-A3B Q4 со скоростью 18 токенов/с на 24GB. Стоит $150 - реальная альтернатива GPU. Подробные тесты и сравнения.

Обзор