Инструменты
Подборка AI-инструментов. Только то, что работает.
Эксперимент: пропуск блоков трансформера в llama.cpp для ускорения загрузки без потери качества
Эксперимент с флагом --skip-layers в llama.cpp. Как отключение части блоков трансформера сокращает загрузку более чем на 20% без видимой деградации.
MiCA: новый метод адаптации в PEFT от Hugging Face — как использовать Minor Component Adaptation для эффективного дообучения
Разбираем Minor Component Adaptation (MiCA) — новый метод PEFT от Hugging Face. Как он работает, чем отличается от LoRA, пример кода и кому подойдет.
Agent Harness для маленьких локальных моделей: как обойти проблемы с tool calls и состоянием
Разбираем, как обвязка (harness) для крошечных локальных моделей (например, Qwen 3.5 4b) решает проблему фейковых вызовов инструментов и потери контекста. Сравн
Ornith-1.0-35B GGUF обновление: MTP speculative decode выжимает 45 t/s на RTX 4090
Сравниваем Ornith-1.0-35B с MTP и без: TTFT, t/s при длинном контексте. Тесты на RTX 4090, советы по настройке драфт-модели и квантованию.
Запуск Step-3.7-Flash (198B MoE vision) на 4×3090: производительность квантований и проблема MTP
Запуск 198-миллиардной vision MoE модели на 4×3090 с квантованием IQ3_XXS. Тестируем производительность, разбираем почему MTP ломает мультимодальность. Бенчмарк
Бесплатный API DeepSeek Chat: как я сэкономил $200 в месяц с помощью реверс-инженерии веб-чата
Пошаговый разбор прокси-сервера, который превращает веб-чат DeepSeek в OpenAI-совместимый API. Экономьте на API, не жертвуя качеством DeepSeek V4 R1.
Запуск Sana 1.6B в формате 1.58 бит: экстремальное квантование для встраиваемых устройств
Практическое руководство по запуску Sana 1.6B в формате 1.58 бит. Экстремальное сжатие до 0.3 ГБ на встраиваемых устройствах. Примеры, сравнение с Q2_K.
Добавление MCP Tools в Reachy Mini: говорим роботу «принеси кофе» и он делает
Полный гайд по интеграции MCP-инструментов в Reachy Mini: команды голосом, профили поведения, сравнение с ROS и REST API. Работает на реальном роботе.
Catastrophic forgetting больше не проблема: изоляция весов трансформеров с открытым кодом
Новый метод изоляции весов решает 30-летнюю проблему забывания в continual learning. Код на GitHub, точность 79% на 50 задачах. Обзор инструмента Paradigm-Swarm
Как использовать Computer Use в Gemini 3.5 Flash: API, безопасность и сценарии автоматизации
Разбираем новое API computer use в Gemini 3.5 Flash: как писать код, защищаться от промпт-инъекций и автоматизировать тестирование и работу с документами.
Google Gemini 3.5 Flash и Spark: агенты, которые не спят. MCP на стероидах
Разбор Gemini 3.5 Flash и Spark: always-on агенты с MCP Tool Support. Сравнение с Claude 4 и GPT-5, примеры использования, кому подойдут.
Как развернуть ChatGPT-подобный интерфейс для LangGraph-агентов на облачном GPU с vLLM и MCP
Пошаговый гайд по созданию полноценного UI для LangGraph-агентов на облачном GPU: vLLM для инференса, MCP для инструментов и Next.js frontend agent-chat-ui.