Инструменты
Подборка AI-инструментов. Только то, что работает.
Построение serverless conversational AI-агента на AWS: Claude, LangGraph и MLflow — пошаговый туториал
Пошаговое руководство по созданию serverless разговорного AI-агента на AWS с использованием Claude, LangGraph для графов и MLflow для отслеживания экспериментов
SyDecode: Triton-ядро для 40-кратного ускорения vLLM и снижения VRAM на 90% через симметрию GQA
Обзор Triton-ядра SyDecode, которое радикально ускоряет vLLM и сокращает потребление памяти через симметрию Grouped Query Attention. Актуально на март 2026.
Критические баги парсера LM Studio для Qwen3.5: как они ломают tool calling и reasoning (и обходные пути)
Обзор критических багов в парсере LM Studio для Qwen3.5, которые нарушают tool calling и reasoning. Способы исправления и альтернативные клиенты на 2026 год.
Шестифазный автономный агент на 200 КБ для Qwen3.5: архитектура и настройка с git-памятью
Компактный автономный агент с шестифазным циклом и git-памятью для Qwen3.5. Настройка, сравнение, примеры использования.
Jan-Code-4B: как установить и настроить легкую локальную модель для замены Claude Haiku в кодинге
Полный гайд по установке Jan-Code-4B — быстрой локальной модели для генерации кода. Замена Claude Haiku без платежей и слежки. Настройки, сравнения, примеры.
AVA: ваш личный робот-секретарь, который ненавидит спам-звонки так же, как и вы
Как развернуть open-source AVA для борьбы со спам-звонками на своём GPU. Whisper, LLM и TTS локально. Полная приватность, нулевые задержки.
Easy-torch-tpu: гайд по обучению больших PyTorch-моделей на Google TPU с нуля
Полный обзор фреймворка easy-torch-tpu для обучения LLM на Google TPU. Сравнение с PyTorch/XLA, примеры кода, интеграция с Hugging Face. Актуально на март 2026.
Lila-E8: как геометрия группы Ли E8 заменяет Attention в трансформерах — обзор модели и инструкция по запуску
Обзор Lila-E8 — архитектуры, использующей геометрию группы Ли E8 для замены механизма внимания в трансформерах. Сравнение, примеры использования, инструкция по
Инъекция навыков в KV-кэш: техника для экономии контекста в маленьких LLM
Как инъекция семантических навыков в KV-кэш решает проблему нехватки контекста для маленьких моделей вроде Qwen2.5 0.5B. Сравнение с markdown-файлами и примеры
Doc-to-LoRA и Text-to-LoRA от Sakana AI: как динамически обновлять знания LLM без переобучения
Обзор методов Doc-to-LoRA и Text-to-LoRA от Sakana AI для создания LoRA адаптеров на лету через гиперсети. Сравнение с CLaaS и другими альтернативами.
RewardHackWatch v1.3: детектирование взлома награды в LLM-агентах на CPU с локальным судьёй Llama
Анонс RewardHackWatch v1.3 — open-source инструмент для детектирования подмены тестов и взлома наград в LLM-агентах. Работает на CPU через Ollama с локальным су
Обратная инженерия Apple Neural Engine: как обучать MicroGPT и LoRA на ANE для максимальной энергоэффективности
Разбираем скрытые API Apple Neural Engine. Практический гайд по обучению MicroGPT и LoRA на NPU Mac M4 для рекордной энергоэффективности.