Инструменты
Подборка AI-инструментов. Только то, что работает.
Nemotron-3 120B на RTX Pro 6000 Blackwell: полный бенчмарк скорости при длинном контексте до 512K
Тест производительности флагманской модели NVIDIA на новейшем GPU Blackwell. Цифры по TTFT, многопользовательской нагрузке и fp8 KV cache для контекста в 512 ты
pygbnf: грамматики для llama.cpp без головной боли с зависимостями
Как использовать pygbnf для создания грамматик без версионных конфликтов в llama.cpp. Примеры кода, сравнение с альтернативами и рекомендации.
Шпион из ядра: как eBPF-трассировщик мониторит LLM API без вашего ведома
Обзор eBPF-трассировщика для мониторинга вызовов LLM API и Model Context Protocol. Нулевое изменение кода, экспорт в OpenTelemetry, поддержка GPT-5, Claude 4, L
htmLLM-50M: HTML/CSS модель, которая запустится даже на вашем холодильнике
Обзор и тесты специализированной tiny LLM htmLLM-50M для генерации HTML и CSS кода. Сравнение, примеры использования и инструкция по запуску на старом железе.
NVILA-8B-HD-Video от NVIDIA: как AutoGaze сокращает латенцию обработки 4K-видео в 19 раз
Как новая мультимодальная модель NVILA-8B-HD-Video с технологией AutoGaze ускоряет обработку HD-видео в 19 раз. Сравнение с альтернативами и примеры использован
Sorting Hat CLI: магия переименования файлов через локальную VLM
Как использовать Sorting Hat CLI для переименования файлов на основе локальной VLM. Работает оффлайн с llama.cpp и OpenAI API. Обзор возможностей и сравнение ал
DoomVLM: как запустить смертельный матч VLM-моделей в классической игре Doom
Обзор DoomVLM — open-source инструмента для тестирования VLM-моделей в игре Doom. Сравнение моделей, поддержка OpenAI-совместимых API, интерактивные смертельные
Phi-4-Reasoning-Vision в GGUF: как запустить мультимодальный рассудок Microsoft на своем железе и не обжечься
Подробный гайд по запуску мультимодальной модели Phi-4-Reasoning-Vision-15B в llama.cpp. Сравнение производительности на CPU и GPU, реальные тесты скорости и ал
LEVI: Гибридный фреймворк для эволюционной оптимизации кода с локальными и облачными LLM
Обзор LEVI — фреймворка для эволюционной оптимизации кода с гибридным использованием локальных (Qwen3-30B) и облачных LLM. Экономия до 10 раз на inference.
IDS+ протокол: как разобраться с Byte-Premium в CJK текстах для LLM
Обзор IDS+ протокола — нового решения проблемы Byte-Premium при обработке китайских, японских, корейских символов в GPT-5, Gemini 3.0 и других LLM. Сравнение, п
Llama.cpp reasoning budget: как ограничить «размышления» модели и не потерять в качестве
Узнайте, как использовать новый reasoning budget в llama.cpp для ограничения токенов на размышления в моделях Qwen, DeepSeek. Экономьте ресурсы без ущерба качес
Как запустить Nemotron 3 Super 120B в llama.cpp: инструкция по GGUF и тесты
Полная инструкция по запуску NVIDIA Nemotron 3 Super 120B в llama.cpp через GGUF формат. Тесты производительности, сравнение с альтернативами и настройка для ло