Инструменты для работы с AI

O

OmniCoder-9B: детальный обзор новой модели-агента для программирования от Tesslate

Детальный обзор OmniCoder-9B от Tesslate: 9B параметров, контекст 262K, восстановление после ошибок. Сравнение с Claude Code и Qwen Coder Next, примеры использо

Обзор

G

GATED_DELTA_NET в llama.cpp: как новая опция Vulkan разгоняет Qwen до 30%

Обзор новой функции GATED_DELTA_NET в llama.cpp для Vulkan. Установка, бенчмарки и прирост скорости до 30% для моделей Qwen на видеокартах AMD. Актуально на мар

Обзор

Н

Новые CloudWatch метрики TimeToFirstToken и EstimatedTPMQuotaUsage для Amazon Bedrock: настройка алертов и управление квотами

Обзор новых метрик TimeToFirstToken и EstimatedTPMQuotaUsage в Amazon Bedrock. Как настроить алерты в CloudWatch и избежать троттлинга. Актуально на март 2026.

Обзор

E

EVR-1 Maano: революционное 3-битное сжатие для Llama 3.1 8B — практическое применение и сравнение с GGUF

Обзор EVR-1 Maano — метода 3-битного квантования для Llama 3.1 8B, который решает проблему дегенерации. Сравнение с GGUF, примеры использования и рекомендации н

Обзор

N

Nemotron-3 120B на RTX Pro 6000 Blackwell: полный бенчмарк скорости при длинном контексте до 512K

Тест производительности флагманской модели NVIDIA на новейшем GPU Blackwell. Цифры по TTFT, многопользовательской нагрузке и fp8 KV cache для контекста в 512 ты

Обзор

p

pygbnf: грамматики для llama.cpp без головной боли с зависимостями

Как использовать pygbnf для создания грамматик без версионных конфликтов в llama.cpp. Примеры кода, сравнение с альтернативами и рекомендации.

Обзор

Ш

Шпион из ядра: как eBPF-трассировщик мониторит LLM API без вашего ведома

Обзор eBPF-трассировщика для мониторинга вызовов LLM API и Model Context Protocol. Нулевое изменение кода, экспорт в OpenTelemetry, поддержка GPT-5, Claude 4, L

Обзор

h

htmLLM-50M: HTML/CSS модель, которая запустится даже на вашем холодильнике

Обзор и тесты специализированной tiny LLM htmLLM-50M для генерации HTML и CSS кода. Сравнение, примеры использования и инструкция по запуску на старом железе.

Обзор

N

NVILA-8B-HD-Video от NVIDIA: как AutoGaze сокращает латенцию обработки 4K-видео в 19 раз

Как новая мультимодальная модель NVILA-8B-HD-Video с технологией AutoGaze ускоряет обработку HD-видео в 19 раз. Сравнение с альтернативами и примеры использован

Обзор

S

Sorting Hat CLI: магия переименования файлов через локальную VLM

Как использовать Sorting Hat CLI для переименования файлов на основе локальной VLM. Работает оффлайн с llama.cpp и OpenAI API. Обзор возможностей и сравнение ал

Обзор

D

DoomVLM: как запустить смертельный матч VLM-моделей в классической игре Doom

Обзор DoomVLM — open-source инструмента для тестирования VLM-моделей в игре Doom. Сравнение моделей, поддержка OpenAI-совместимых API, интерактивные смертельные

Обзор

P

Phi-4-Reasoning-Vision в GGUF: как запустить мультимодальный рассудок Microsoft на своем железе и не обжечься

Подробный гайд по запуску мультимодальной модели Phi-4-Reasoning-Vision-15B в llama.cpp. Сравнение производительности на CPU и GPU, реальные тесты скорости и ал

Обзор