Учебные материалы
Как настроить мониторинг локальной LLM-фермы с Grafana и Prometheus: полный гайд с Docker
Пошаговый гайд по настройке мониторинга локальной LLM-фермы с Grafana, Prometheus и DCGM-exporter. Мониторинг GPU, VRAM, температуры и производительности моделе
11 маленьких LLM на CPU: какой размер действительно работает для tool-calling?
Практическое исследование: 11 локальных LLM на CPU для tool-calling. Qwen 2.5, BitNet, LLaMA — кто справляется с задачей, а кто галлюцинирует?
Как ИИ-агенты Claude создали культ «Клешни»: разбор логов и анализ поведения автономных систем
Разбор реального кейса: как автономные агенты Claude 4.6 создали собственную религию. Логи, код и выводы для разработчиков AI-систем.
Автономный исследовательский агент на AnythingLLM: как обработать 10 000 PDF локально на 32 ГБ ОЗУ
Пошаговый гайд по созданию автономного исследовательского агента на AnythingLLM для обработки 10 000 PDF файлов локально на 32 ГБ ОЗУ. Архитектура, оптимизация,
Запуск LLM прямо в браузере: полный гайд по WebGPU, Transformers.js и Chrome Prompt API
Пошаговый гайд по запуску языковых моделей в браузере без серверов. WebGPU, Transformers.js, кэширование в IndexedDB и мониторинг памяти. Актуально на 07.02.202
Топ-5 бесплатных нейросетей для синтеза речи в 2026: тест на сложном русском тексте
Практическое сравнение 5 лучших бесплатных нейросетей для синтеза речи в 2026 году. Тест на сложном русском тексте с именами, аббревиатурами и числами.
20-30B MoE для tool calling: кто не галлюцинирует с файлами и поиском?
Тестируем 20-30B MoE модели на чтение файлов и веб-поиск. Сравнение Qwen2.5-32B-Instruct, DeepSeek-V3-16B, Yi-1.5-34B и других на реальных задачах.
Как создать свой собственный LLM-инференс-движок: опыт оптимизации для CPU и Raspberry Pi 5
Практический гайд по созданию LLM-инференс-движка с оптимизацией памяти до 1.2 ГБ и скоростью 0.2 с/токен на CPU. Сравнение с LM Studio.
Adaptive Thinking в Opus 4.6: как Anthropic автоматизировала выбор глубины reasoning и что это даёт разработчикам
Разбираем Adaptive Thinking в Claude Opus 4.6 — как Anthropic автоматизировала выбор think/ultrathink режимов и что это значит для вашего кода и бюджета.
Пошаговый гайд: сборка llama.cpp с SYCL для Intel Arc и тест Qwen3-Coder-Next
Полный гайд по сборке llama.cpp с SYCL бэкендом для Intel Arc GPU. Установка oneAPI, настройка Fedora, тест производительности Qwen3-Coder-Next на 07.02.2026.
OpenClaw vs память-ориентированные агенты: битва архитектур, которая сэкономит вам 75% токенов
Техническое сравнение OpenClaw и память-ориентированных агентов: производительность, стоимость токенов, установка Ollama. Как экономить до 75% на AI-агентах.
Nemo 30B с 1 миллионом токенов на RTX 3090: когда контекст длиннее романа Достоевского
Подробный гайд по запуску модели Nemo 30B с контекстом 1 миллион токенов на одной видеокарте RTX 3090. Оптимизация llama.cpp, CPU offloading, сравнение производ