Инструменты
Подборка AI-инструментов. Только то, что работает.
pplx-embed от Perplexity: как использовать квантованные эмбеддинги для семантического поиска и RAG
Обзор pplx-embed от Perplexity: как int8-квантование ускоряет семантический поиск и RAG-системы. Примеры использования, сравнение с альтернативами.
OASIS: как запустить и использовать локальный бенчмарк для тестирования LLM на задачах кибербезопасности
Полный обзор OASIS — локального бенчмарка для оценки LLM на задачах кибербезопасности. Запуск в Docker, тестирование уязвимостей, сравнение моделей.
LightMem: система памяти для LLM-агентов с 10x ростом точности и 100x снижением затрат
Обзор LightMem - легковесной системы памяти для LLM-агентов. Увеличивает точность в 10 раз, сокращает затраты на токены и API-вызовы в 100 раз. Открытый код, мо
Open-vocabulary детекция объектов и их редактирование с Gemini: полный туториал с кодом
Полное руководство по open-vocabulary детекции и пространственному редактированию объектов с Gemini Nano Banana 3. Код, примеры, сравнение с альтернативами. Акт
VBVR: 2 миллиона видео, чтобы заставить ИИ думать как человек
Полный обзор датасета VBVR на 2 млн видео и модели Wan2.2, которая превосходит Sora 2 в когнитивных задачах. Открытые веса, бенчмарк и примеры использования.
CLaaS: обзор и настройка open-source библиотеки для обучения LLM вашими фидбеками в реальном времени
Как настроить CLaaS для continual learning LLM с LoRA адаптерами. Решение проблемы катастрофического забывания. Примеры использования с Telegram и OpenClaw.
Multi-LoRA serving в vLLM 0.15.0: как обслуживать десятки MoE-моделей на одном GPU
Как vLLM 0.15.0 с multi-LoRA serving экономит GPU при запуске десятков fine-tuned MoE-моделей. Сравнение с альтернативами, примеры и настройка.
Как обновить llama.cpp для Qwen 3.5: исправление multi-GPU crash и настройка prompt caching
Пошаговый гайд по обновлению llama.cpp, применению патча для исправления краша на нескольких GPU и настройке prompt caching под Qwen 3.5. Актуально на февраль 2
CodeWiki Skill: Документация, которая пишет сама себя. Или как настроить мультиагентную систему за 15 минут
Как настроить мультиагентную систему CodeWiki Skill для автоматического создания структурированной документации к любому коду. Работа с Claude Code и семантичес
FlashLM v6 SUPERNOVA: революционная архитектура P-RCSM без внимания и свёрток, 3500 токенов/с на CPU
Обзор FlashLM v6 SUPERNOVA: архитектура P-RCSM без внимания и сверток, тернарные веса, 4.1M параметров, 3500 токенов/с на CPU. Сравнение с альтернативами.
Qwen3.5-27B на RTX A6000: как получить 19.7 токенов в секунду с качеством GPT-4?
Пошаговая инструкция по запуску Qwen3.5-27B с квантованием Q8_0 через llama.cpp и CUDA на RTX A6000. Сравнение с Llama 3.1 и Mixtral.
SWE-bench Multilingual Leaderboard: какой ИИ лучше всего пишет код на 9 языках и сколько это стоит
Сравнение GPT-5.2, GLM-4.7, DeepSeek v3.2 и MiniMax 2.5 на SWE-bench Multilingual Leaderboard. Какая модель лучше пишет код на 9 языках и сколько стоит inferenc