Инструменты
Подборка AI-инструментов. Только то, что работает.
Solidity LM на основе Qwen 3.6 превзошёл Opus: как запустить модель 27B для смарт-контрактов
Новинка: Solidity LM на Qwen 3.6 - 27B модель обходит Opus. Гайд по запуску, сравнение с альтернативами и примеры для разработчиков смарт-контрактов.
SocratiCode: MCP-сервер, который научит ИИ-агента шарить в вашем коде
Обзор SocratiCode — open-source MCP-сервера для семантического поиска по коду. AST-чанкинг, гибридный search (Qdrant + Ollama), сравнение с Ragex и Code-memory.
CopilotKit и AG-UI: как интегрировать AI-агентов в UI с открытым протоколом
Разбираем CopilotKit и AG-UI — связку для встраивания AI-агентов в интерфейсы. Streaming, state sharing, человеко-в-цикле. Сравнение с альтернативами и примеры
VibeVoice.cpp: Microsoft VibeVoice на стероидах — локальный speech-to-speech без Python и облаков
Запускаем VibeVoice.cpp — порт Microsoft VibeVoice на ggml/C++ с поддержкой CPU, CUDA, Metal, Vulkan. Без Python, с квантованием и voice cloning. Сравнение с ал
MTPLX: ускорение инференса на Apple Silicon в 2.24 раза — обзор нового MTP-движка
Разбор MTPLX — нативного MTP-движка для Apple Silicon, который ускоряет инференс в 2.24 раза. Бенчмарки, сравнение с llama.cpp и mlx-lm, примеры запуска на M5 M
FastDMS: как сжать KV-cache в 6 раз и ускорить инференс — обзор открытой реализации и бенчмарков
Разбор открытой реализации Dynamic Memory Sparsification (FastDMS): сжатие KV-cache в 6 раз, ускорение инференса на 30% против vLLM. Примеры, бенчмарки, сравнен
APEX MoE квантизация: 30+ моделей с ускорением до 33% и новый ультра-сжатый I-Nano уровень
Обзор APEX — MoE-aware mixed-precision квантизация. Ускорение до 33%, поддержка 30+ моделей, ультра-сжатый уровень I-Nano. Сравнение с аналогами, тесты скорости
DGX Spark + M3 Ultra: собираем распределённый инференс с разделением prefill/decode на llama.cpp
Эксперимент: разъединяем prefill и decode между DGX Spark и M3 Ultra на llama.cpp. Результаты, команды, узкие места — для тех, кто хочет выжать максимум из гете
LLMSearchIndex: 200 миллионов страниц для локального RAG — Tavily и Perplexity больше не нужны?
LLMSearchIndex — open-source библиотека с 200 млн проиндексированных страниц для локального веб-поиска в RAG-пайплайнах. Сравнение с альтернативами, примеры код
Llama.cpp MTP: как включить Multi-Token Prediction в бета-версии для ускорения инференса
Как активировать MTP в бета-сборке llama.cpp? Инструкция, тесты скорости на Qwen и Llama, сравнение с mlx-lm и vLLM. Ускорение до 2x на слабом железе.
Создаём AI-репетитора по английскому на Go с Clean Architecture и четырьмя LLM: полный разбор кода
Подробный гайд по созданию AI-репетитора английского языка на Go: Clean Architecture, интеграция GPT-4o, Claude, Mistral, Gemini. Архитектура, примеры кода, сра
Hummingbird+: FPGA-ускоритель для LLM за $150 – обзор производительности Qwen3-30B-A3B Q4 на 24GB
FPGA-ускоритель Hummingbird+ запускает Qwen3-30B-A3B Q4 со скоростью 18 токенов/с на 24GB. Стоит $150 - реальная альтернатива GPU. Подробные тесты и сравнения.