Инструменты
Подборка AI-инструментов. Только то, что работает.
Бесплатная связка для AI-агентов: как заменить дорогой Context7 локальным MCP-сервером (замеры 8 альтернатив)
Context7 дорог и медленен? Собираем локальный MCP-сервер на @neuledge и llama.cpp. Тесты 8 альтернатив — цифры, команды, сравнение скорости и точности.
Qwen-AgentWorld-35B-A3B: Мир в 35 миллиардов, где активны только 3
Обзор Qwen-AgentWorld-35B-A3B — 35B MoE с 3B активными параметрами. Как World Model предсказывает состояния среды в MCP, SWE, терминале. Примеры использования и
650+ медицинских NER-моделей на Mac: как MLX разгоняет PyTorch в 30 раз
Открытый репозиторий с 650+ медицинскими NER и деидентификационными моделями под Apache-2.0. Запускаем на Mac через MLX — ускорение до 40x против PyTorch-CPU. Б
GLM 5.2 на Mac Studio с 512 ГБ: префилл >100 t/s и никаких компромиссов
Реальный опыт запуска GLM 5.2 в 4-bit на Mac Studio M3 Ultra с 512GB Unified Memory. Префилл >100 t/s, контекст 100k, сравнение с NVIDIA RTX 4090.
Как реализовать multi-tenancy с Amazon Bedrock AgentCore: пошаговое руководство с примерами кода
Полное руководство по реализации мультитенантности для AI-агентов на Amazon Bedrock AgentCore. Изоляция, cost tracking, код и архитектурные паттерны.
VibeThinker 3B: как маленькая модель обходит Opus 4.5 в рассуждениях — разбор метода SFT+GRPO
Узнайте, как открытая 3B-модель VibeThinker превосходит проприетарного гиганта Opus 4.5 благодаря комбинации SFT и GRPO. Примеры, бенчмарки, советы по запуску.
Создаём агентные приложения с CUGA: обзор 24 рабочих примеров на лёгком каркасе от IBM
Обзор 24 готовых примеров агентных приложений на CUGA — легком каркасе от IBM. pip install cuga, архитектура, сравнение с LangChain, советы разработчикам.
Запуск MiniMax M3 EAGLE3 на llama.cpp: конвертация в GGUF и ускорение инференса с помощью драфт-модели
Инструкция по конвертации драфт-модели MiniMax M3 EAGLE3 в GGUF для llama.cpp. Ускорение инференса на multi-GPU с 2.3 до 5 tk/s.
Microsoft Fast Context: open-source ускоритель, который перевернул представление о длинных контекстах
Open-source библиотека от Microsoft для ускорения обработки контекстов до 1M+ токенов. Сравнение с альтернативами, примеры кода, кому подойдет.
Контрастивный ковектор: хирургический скальпель для refusal-направления в LLM, который не калечит модель
Математический оператор ablation для точного удаления отказов LLM без нарушения полезного поведения. Сравнение с Apostate, Heretic, Refusal Steering. Примеры и
Qt Creator 20: локальный AI в офлайне — когда IDE сама дописывает код без отправки данных в облако
Полный гайд по интеграции локальных LLM в Qt Creator 20: от установки модели до автодополнения и рефакторинга C++ кода. Сравнение с Copilot, Ollama и Continue.d
Moebius: 0.2B модель для Image Inpainting с производительностью на уровне 10B — установка и тестирование
Обзор Moebius — 0.2B модель для inpainting, работающая как 10B. Установка, тесты, сравнение с аналогами. Кому подойдет и как запустить локально.