Инструменты для работы с AI

p

pplx-embed от Perplexity: как использовать квантованные эмбеддинги для семантического поиска и RAG

Обзор pplx-embed от Perplexity: как int8-квантование ускоряет семантический поиск и RAG-системы. Примеры использования, сравнение с альтернативами.

Обзор

O

OASIS: как запустить и использовать локальный бенчмарк для тестирования LLM на задачах кибербезопасности

Полный обзор OASIS — локального бенчмарка для оценки LLM на задачах кибербезопасности. Запуск в Docker, тестирование уязвимостей, сравнение моделей.

Обзор

L

LightMem: система памяти для LLM-агентов с 10x ростом точности и 100x снижением затрат

Обзор LightMem - легковесной системы памяти для LLM-агентов. Увеличивает точность в 10 раз, сокращает затраты на токены и API-вызовы в 100 раз. Открытый код, мо

Обзор

O

Open-vocabulary детекция объектов и их редактирование с Gemini: полный туториал с кодом

Полное руководство по open-vocabulary детекции и пространственному редактированию объектов с Gemini Nano Banana 3. Код, примеры, сравнение с альтернативами. Акт

Обзор

V

VBVR: 2 миллиона видео, чтобы заставить ИИ думать как человек

Полный обзор датасета VBVR на 2 млн видео и модели Wan2.2, которая превосходит Sora 2 в когнитивных задачах. Открытые веса, бенчмарк и примеры использования.

Обзор

C

CLaaS: обзор и настройка open-source библиотеки для обучения LLM вашими фидбеками в реальном времени

Как настроить CLaaS для continual learning LLM с LoRA адаптерами. Решение проблемы катастрофического забывания. Примеры использования с Telegram и OpenClaw.

Обзор

M

Multi-LoRA serving в vLLM 0.15.0: как обслуживать десятки MoE-моделей на одном GPU

Как vLLM 0.15.0 с multi-LoRA serving экономит GPU при запуске десятков fine-tuned MoE-моделей. Сравнение с альтернативами, примеры и настройка.

Обзор

К

Как обновить llama.cpp для Qwen 3.5: исправление multi-GPU crash и настройка prompt caching

Пошаговый гайд по обновлению llama.cpp, применению патча для исправления краша на нескольких GPU и настройке prompt caching под Qwen 3.5. Актуально на февраль 2

Обзор

C

CodeWiki Skill: Документация, которая пишет сама себя. Или как настроить мультиагентную систему за 15 минут

Как настроить мультиагентную систему CodeWiki Skill для автоматического создания структурированной документации к любому коду. Работа с Claude Code и семантичес

Обзор

F

FlashLM v6 SUPERNOVA: революционная архитектура P-RCSM без внимания и свёрток, 3500 токенов/с на CPU

Обзор FlashLM v6 SUPERNOVA: архитектура P-RCSM без внимания и сверток, тернарные веса, 4.1M параметров, 3500 токенов/с на CPU. Сравнение с альтернативами.

Обзор

Q

Qwen3.5-27B на RTX A6000: как получить 19.7 токенов в секунду с качеством GPT-4?

Пошаговая инструкция по запуску Qwen3.5-27B с квантованием Q8_0 через llama.cpp и CUDA на RTX A6000. Сравнение с Llama 3.1 и Mixtral.

Обзор

S

SWE-bench Multilingual Leaderboard: какой ИИ лучше всего пишет код на 9 языках и сколько это стоит

Сравнение GPT-5.2, GLM-4.7, DeepSeek v3.2 и MiniMax 2.5 на SWE-bench Multilingual Leaderboard. Какая модель лучше пишет код на 9 языках и сколько стоит inferenc

Обзор