Инструменты для работы с AI

В

Взломаный Claude Code: как сообщество собрало SDK без зависимостей и зачем он вам

Гайд по использованию обратно спроектированного Claude Code SDK с zero dependencies. Установка на 4 языках, работа с агентами, инструментами и MCP.

Обзор

M

Memento v1.0: Забудьте о золотых рыбках — ваш AI-агент теперь помнит все

Полное руководство по развертыванию Memento v1.0 — локальной памяти для AI-агентов. Установка в одну команду, офлайн эмбеддинги, HNSW индекс. Для приватных прое

Обзор

S

Savant Commander 48B MOE: руководство по установке и тестированию дистилляций Claude, Gemini и OpenAI в одной модели

Полное руководство по Savant Commander 48B MOE - модели, объединяющей дистилляции Claude, Gemini и OpenAI. Установка, тестирование, сравнение с альтернативами.

Обзор

D

Delta-KV для llama.cpp: как сжать KV-кеш до 4 бит почти без потерь на Llama 70B

Техника дельта-квантования сжимает KV-кеш в 8 раз, позволяя запускать Llama 70B на слабом железе без потери качества. Интеграция в llama.cpp.

Обзор

F

FlashAttention-4: разгон инференса в 2.7 раза, поддержка в vLLM и жёсткие требования к железу

Обзор FlashAttention-4: как работает, интеграция с vLLM 0.17.0, поддержка Blackwell и Hopper GPU, сравнение с альтернативами.

Обзор

o

oQ: data-driven mixed-precision квантование для Apple Silicon — обзор, установка и калибровка

Обзор инструмента oQ для data-driven mixed-precision квантования моделей под Apple Silicon. Установка, калибровка, сравнение с аналогами и примеры использования

Обзор

Д

Детерминированные LLM от Artificial Genius: как Amazon Nova борется с галлюцинациями в финансах и медицине

Обзор Amazon Nova от Artificial Genius. Как детерминированный ИИ решает проблему галлюцинаций в финансовых и медицинских LLM. Сравнение с GPT-5.2 и примеры испо

Обзор

7

7MB бинарная Mamba LLM: когда AI помещается в микроконтроллер и не просит floating-point

Обзор 7MB бинарной Mamba LLM: запуск AI на устройствах без FPU. Сравнение с альтернативами, примеры использования, кому подойдет. Актуально на 23.03.2026.

Обзор

Л

Локальный GraphRAG с Ollama: обзор Retriqs и сравнение моделей для экстракции

Практический обзор Retriqs для создания локального GraphRAG с Ollama. Сравнение моделей для экстракции отношений, примеры использования и альтернативы.

Обзор

P

PRISM: фотонный чип для O(1) выбора KV cache — как симуляция обещает ускорение в 944 раза и экономию энергии

Фотонный чип PRISM решает главную проблему инференса LLM — сканирование KV cache. Симуляции на 23.03.2026 показывают ускорение в 944 раза и радикальную экономию

Обзор

W

WMB-100K: обзор open-source бенчмарка для тестирования памяти ИИ на 100 000 шагов

Обзор open-source бенчмарка WMB-100K для тестирования памяти ИИ на экстремально длинных диалогах. Возможности, сравнение с аналогами, примеры использования.

Обзор

P

Perplexity заблокировали? Настраиваем веб-поиск в LM Studio локально с плагинами и Jinja-фиксом

Полная настройка локального веб-поиска в LM Studio с обновленными плагинами. Исправляем ошибки tool calls для Qwen с помощью Jinja шаблона. Альтернатива Perplex

Обзор