Инструменты
Подборка AI-инструментов. Только то, что работает.
Daggr: цепляй AI-приложения кодом, а отлаживай глазами — стартуем
Знакомство с библиотекой Daggr: пишем AI-пайплайны на Python, визуализируем граф, отлаживаем каждый узел. Сравнение с LangChain, примеры кода.
Granite 4.1: IBM сделала маленькие модели, которые бьют гигантов — архитектура, RL и секрет DAPO
Разбор IBM Granite 4.1: архитектура 3B/8B/30B, претрейнинг на 15 трлн токенов, RL с GRPO и DAPO. 8B модель уделывает 32B MoE. Кому подходит, бенчмарки, сравнени
AI-агент спроектировал RISC-V процессор: как Verkor.io создал VerCore с помощью Design Conductor
Первый в мире случай полного проектирования CPU AI-агентом. Обзор платформы Design Conductor, создавшей RISC-V процессор VerCore. Как это изменит chip-дизайн?
Как заблокировать нежелательные фразы в llama.cpp: готовый скрипт и инструкция по настройке
Готовый скрипт на Python для фильтрации вывода llama.cpp. Установка, примеры, сравнение с альтернативами. Блокируйте конкретные слова и фразы в генерации.
Memory MCP для LLM: гибридный поиск BM25+вектора+RRF на Qwen3.5-4B — установка и настройка
Пошаговая установка и настройка Memory MCP сервера для долговременной памяти LLM. Гибридный поиск BM25 + векторные эмбеддинги + RRF ранжирование на Qwen3.5-4B.
Запуск Qwen3.6-27B с agentic search на одной 3090: достижение 95.7% SimpleQA локально
Как запустить Qwen3.6-27B с агентическим поиском на одной RTX 3090 и обогнать GPT-4o в фактологической точности. Инструкция и тесты.
Гибридный инференс LLM на Android: llama.cpp + LiteRT + NPU/GPU — первый опыт
Разбираем первый опыт гибридного инференса LLM на Android: llama.cpp + LiteRT с задействованием NPU/GPU. Сравнение с альтернативами, примеры настройки и практич
Объединяем GPU в домашний кластер: mDNS и ZeroConf для распределенного обучения LLM без боли
Как настроить автоматическое обнаружение узлов через mDNS для распределенного обучения LLM на домашнем кластере. Пошаговый гайд с Avahi и PyTorch Distributed.
OBLITERATUS: новый уровень red-teaming для MoE моделей — почему Heretic уже не тянет
Разбираем инструмент elder_plinus для red-teaming MoE моделей. Сравнение с Heretic, примеры атак и выводы для пентестеров. Актуально на май 2026.
PFlash: ускорение prefill в 10 раз на RTX 3090 при длине контекста 128K — разбор технологии и бенчмарков
Разбор PFlash — новой техники, ускоряющей prefill в 10 раз на RTX 3090 с контекстом 128K. Сравнение с llama.cpp, бенчмарки, примеры использования и подводные ка
Intel AutoRound: Intel внезапно выстрелила. Почему SOTA-квантование теперь не про GPU?
Разбор Intel AutoRound — нового алгоритма квантования LLM, который бьёт GPTQ и AWQ. Поддержка CPU/XPU/CUDA, интеграция с vLLM, SGLang и Transformers. Реальные т
8.7k диалогов Claude Opus 4.7: датасет для fine-tuning, от которого у вас потекут слюнки
Новый синтетический датасет на HuggingFace: 8700 диалогов Claude Opus 4.6/4.7 с цепочками рассуждений. Очистка от отказов, сравнение с аналогами, примеры примен