Инструменты
Подборка AI-инструментов. Только то, что работает.
Взломаный Claude Code: как сообщество собрало SDK без зависимостей и зачем он вам
Гайд по использованию обратно спроектированного Claude Code SDK с zero dependencies. Установка на 4 языках, работа с агентами, инструментами и MCP.
Memento v1.0: Забудьте о золотых рыбках — ваш AI-агент теперь помнит все
Полное руководство по развертыванию Memento v1.0 — локальной памяти для AI-агентов. Установка в одну команду, офлайн эмбеддинги, HNSW индекс. Для приватных прое
Savant Commander 48B MOE: руководство по установке и тестированию дистилляций Claude, Gemini и OpenAI в одной модели
Полное руководство по Savant Commander 48B MOE - модели, объединяющей дистилляции Claude, Gemini и OpenAI. Установка, тестирование, сравнение с альтернативами.
Delta-KV для llama.cpp: как сжать KV-кеш до 4 бит почти без потерь на Llama 70B
Техника дельта-квантования сжимает KV-кеш в 8 раз, позволяя запускать Llama 70B на слабом железе без потери качества. Интеграция в llama.cpp.
FlashAttention-4: разгон инференса в 2.7 раза, поддержка в vLLM и жёсткие требования к железу
Обзор FlashAttention-4: как работает, интеграция с vLLM 0.17.0, поддержка Blackwell и Hopper GPU, сравнение с альтернативами.
oQ: data-driven mixed-precision квантование для Apple Silicon — обзор, установка и калибровка
Обзор инструмента oQ для data-driven mixed-precision квантования моделей под Apple Silicon. Установка, калибровка, сравнение с аналогами и примеры использования
Детерминированные LLM от Artificial Genius: как Amazon Nova борется с галлюцинациями в финансах и медицине
Обзор Amazon Nova от Artificial Genius. Как детерминированный ИИ решает проблему галлюцинаций в финансовых и медицинских LLM. Сравнение с GPT-5.2 и примеры испо
7MB бинарная Mamba LLM: когда AI помещается в микроконтроллер и не просит floating-point
Обзор 7MB бинарной Mamba LLM: запуск AI на устройствах без FPU. Сравнение с альтернативами, примеры использования, кому подойдет. Актуально на 23.03.2026.
Локальный GraphRAG с Ollama: обзор Retriqs и сравнение моделей для экстракции
Практический обзор Retriqs для создания локального GraphRAG с Ollama. Сравнение моделей для экстракции отношений, примеры использования и альтернативы.
PRISM: фотонный чип для O(1) выбора KV cache — как симуляция обещает ускорение в 944 раза и экономию энергии
Фотонный чип PRISM решает главную проблему инференса LLM — сканирование KV cache. Симуляции на 23.03.2026 показывают ускорение в 944 раза и радикальную экономию
WMB-100K: обзор open-source бенчмарка для тестирования памяти ИИ на 100 000 шагов
Обзор open-source бенчмарка WMB-100K для тестирования памяти ИИ на экстремально длинных диалогах. Возможности, сравнение с аналогами, примеры использования.
Perplexity заблокировали? Настраиваем веб-поиск в LM Studio локально с плагинами и Jinja-фиксом
Полная настройка локального веб-поиска в LM Studio с обновленными плагинами. Исправляем ошибки tool calls для Qwen с помощью Jinja шаблона. Альтернатива Perplex