Инструменты для работы с AI

Э

Эксперимент: пропуск блоков трансформера в llama.cpp для ускорения загрузки без потери качества

Эксперимент с флагом --skip-layers в llama.cpp. Как отключение части блоков трансформера сокращает загрузку более чем на 20% без видимой деградации.

Обзор

M

MiCA: новый метод адаптации в PEFT от Hugging Face — как использовать Minor Component Adaptation для эффективного дообучения

Разбираем Minor Component Adaptation (MiCA) — новый метод PEFT от Hugging Face. Как он работает, чем отличается от LoRA, пример кода и кому подойдет.

Обзор

A

Agent Harness для маленьких локальных моделей: как обойти проблемы с tool calls и состоянием

Разбираем, как обвязка (harness) для крошечных локальных моделей (например, Qwen 3.5 4b) решает проблему фейковых вызовов инструментов и потери контекста. Сравн

Обзор

O

Ornith-1.0-35B GGUF обновление: MTP speculative decode выжимает 45 t/s на RTX 4090

Сравниваем Ornith-1.0-35B с MTP и без: TTFT, t/s при длинном контексте. Тесты на RTX 4090, советы по настройке драфт-модели и квантованию.

Обзор

З

Запуск Step-3.7-Flash (198B MoE vision) на 4×3090: производительность квантований и проблема MTP

Запуск 198-миллиардной vision MoE модели на 4×3090 с квантованием IQ3_XXS. Тестируем производительность, разбираем почему MTP ломает мультимодальность. Бенчмарк

Обзор

Б

Бесплатный API DeepSeek Chat: как я сэкономил $200 в месяц с помощью реверс-инженерии веб-чата

Пошаговый разбор прокси-сервера, который превращает веб-чат DeepSeek в OpenAI-совместимый API. Экономьте на API, не жертвуя качеством DeepSeek V4 R1.

Обзор

З

Запуск Sana 1.6B в формате 1.58 бит: экстремальное квантование для встраиваемых устройств

Практическое руководство по запуску Sana 1.6B в формате 1.58 бит. Экстремальное сжатие до 0.3 ГБ на встраиваемых устройствах. Примеры, сравнение с Q2_K.

Обзор

Д

Добавление MCP Tools в Reachy Mini: говорим роботу «принеси кофе» и он делает

Полный гайд по интеграции MCP-инструментов в Reachy Mini: команды голосом, профили поведения, сравнение с ROS и REST API. Работает на реальном роботе.

Обзор

C

Catastrophic forgetting больше не проблема: изоляция весов трансформеров с открытым кодом

Новый метод изоляции весов решает 30-летнюю проблему забывания в continual learning. Код на GitHub, точность 79% на 50 задачах. Обзор инструмента Paradigm-Swarm

Обзор

К

Как использовать Computer Use в Gemini 3.5 Flash: API, безопасность и сценарии автоматизации

Разбираем новое API computer use в Gemini 3.5 Flash: как писать код, защищаться от промпт-инъекций и автоматизировать тестирование и работу с документами.

Обзор

G

Google Gemini 3.5 Flash и Spark: агенты, которые не спят. MCP на стероидах

Разбор Gemini 3.5 Flash и Spark: always-on агенты с MCP Tool Support. Сравнение с Claude 4 и GPT-5, примеры использования, кому подойдут.

Обзор

К

Как развернуть ChatGPT-подобный интерфейс для LangGraph-агентов на облачном GPU с vLLM и MCP

Пошаговый гайд по созданию полноценного UI для LangGraph-агентов на облачном GPU: vLLM для инференса, MCP для инструментов и Next.js frontend agent-chat-ui.

Обзор