Инструменты для работы с AI

П

Построение serverless conversational AI-агента на AWS: Claude, LangGraph и MLflow — пошаговый туториал

Пошаговое руководство по созданию serverless разговорного AI-агента на AWS с использованием Claude, LangGraph для графов и MLflow для отслеживания экспериментов

Обзор

S

SyDecode: Triton-ядро для 40-кратного ускорения vLLM и снижения VRAM на 90% через симметрию GQA

Обзор Triton-ядра SyDecode, которое радикально ускоряет vLLM и сокращает потребление памяти через симметрию Grouped Query Attention. Актуально на март 2026.

Обзор

К

Критические баги парсера LM Studio для Qwen3.5: как они ломают tool calling и reasoning (и обходные пути)

Обзор критических багов в парсере LM Studio для Qwen3.5, которые нарушают tool calling и reasoning. Способы исправления и альтернативные клиенты на 2026 год.

Обзор

Ш

Шестифазный автономный агент на 200 КБ для Qwen3.5: архитектура и настройка с git-памятью

Компактный автономный агент с шестифазным циклом и git-памятью для Qwen3.5. Настройка, сравнение, примеры использования.

Обзор

J

Jan-Code-4B: как установить и настроить легкую локальную модель для замены Claude Haiku в кодинге

Полный гайд по установке Jan-Code-4B — быстрой локальной модели для генерации кода. Замена Claude Haiku без платежей и слежки. Настройки, сравнения, примеры.

Обзор

A

AVA: ваш личный робот-секретарь, который ненавидит спам-звонки так же, как и вы

Как развернуть open-source AVA для борьбы со спам-звонками на своём GPU. Whisper, LLM и TTS локально. Полная приватность, нулевые задержки.

Обзор

E

Easy-torch-tpu: гайд по обучению больших PyTorch-моделей на Google TPU с нуля

Полный обзор фреймворка easy-torch-tpu для обучения LLM на Google TPU. Сравнение с PyTorch/XLA, примеры кода, интеграция с Hugging Face. Актуально на март 2026.

Обзор

L

Lila-E8: как геометрия группы Ли E8 заменяет Attention в трансформерах — обзор модели и инструкция по запуску

Обзор Lila-E8 — архитектуры, использующей геометрию группы Ли E8 для замены механизма внимания в трансформерах. Сравнение, примеры использования, инструкция по

Обзор

И

Инъекция навыков в KV-кэш: техника для экономии контекста в маленьких LLM

Как инъекция семантических навыков в KV-кэш решает проблему нехватки контекста для маленьких моделей вроде Qwen2.5 0.5B. Сравнение с markdown-файлами и примеры

Обзор

D

Doc-to-LoRA и Text-to-LoRA от Sakana AI: как динамически обновлять знания LLM без переобучения

Обзор методов Doc-to-LoRA и Text-to-LoRA от Sakana AI для создания LoRA адаптеров на лету через гиперсети. Сравнение с CLaaS и другими альтернативами.

Обзор

R

RewardHackWatch v1.3: детектирование взлома награды в LLM-агентах на CPU с локальным судьёй Llama

Анонс RewardHackWatch v1.3 — open-source инструмент для детектирования подмены тестов и взлома наград в LLM-агентах. Работает на CPU через Ollama с локальным су

Обзор

О

Обратная инженерия Apple Neural Engine: как обучать MicroGPT и LoRA на ANE для максимальной энергоэффективности

Разбираем скрытые API Apple Neural Engine. Практический гайд по обучению MicroGPT и LoRA на NPU Mac M4 для рекордной энергоэффективности.

Обзор