Учебные материалы
Как запустить полностью офлайн RAG-пайплайн на Android: Gemma 3, кастомная модель поиска SEE и оптимизация батареи
Полный гайд по запуску офлайн RAG-пайплайна на Android с Gemma 3 270M, кастомной моделью поиска SEE и оптимизацией энергопотребления. Практические метрики и реш
Таксономия методов тонкой настройки LLM: полный гид для начинающих
Подробное сравнение методов fine-tuning LLM в 2026 году. LoRA vs QLoRA, инструктивное обучение, DPO, полная настройка. Как выбрать метод для вашей задачи.
Корпоративный ИИ-агент: как Яндекс построил DeepResearch и почему ваш RAG уже устарел
Практический разбор корпоративного ИИ-агента Яндекса: эволюция архитектуры, ключевые ошибки и готовые решения для работы с внутренними данными.
RTX 6000 Blackwell не POSTится: спасение системы за $15,000 через сброс CMOS и IPMI
Детальный гайд по решению проблем с загрузкой ОС на RTX 6000 Blackwell с Epyc Genoa. Сброс CMOS, настройка IPMI, стабилизация Ubuntu для локальных LLM.
Claude Code течет как решето: что на самом деле уходит в облако при 'локальном' запуске
Проверка сетевого трафика Claude Code. Какие данные отправляются в Anthropic при локальном использовании и как полностью отключить облачные соединения.
Запускаем Claude Code локально с GLM-4.7 Flash: полный гайд с Docker и автовыгрузкой VRAM
Пошаговый гайд по запуску GLM-4.7 Flash локально через llama.cpp server с Docker, автовыгрузкой VRAM и полной заменой Claude Code API. Конфигурация, параметры,
Как настроить observability для LLM-агентов: трассировка, мониторинг затрат и анализ производительности с Langfuse
Полное руководство по настройке observability для LLM-агентов в 2026 году. Трассировка, мониторинг токенов, анализ стоимости и производительности с Langfuse.
AI Gateway против кастомных решений: Vercel, LiteLLM и OpenRouter для продакшн-приложений
Полное техническое сравнение AI Gateway решений для продакшн-приложений. Vercel AI Gateway, LiteLLM и OpenRouter: архитектура, ограничения и streaming-консистен
Заклинание драконов: как заставить NVIDIA и Intel ARC работать вместе для LLM
Полное руководство по запуску LLM на смешанных GPU. Pipeline и tensor параллелизм, распределение нагрузки, оценка оверхеда, актуальные инструменты на 2026 год.
SGLang против vLLM: битва за миллисекунды в инференсе LLM
Полный разбор SGLang (RadixArk) и vLLM: архитектура, производительность, настройка для высоконагруженных LLM-систем. Актуально на январь 2026.
Ephemeral vs Ray: Сравнение подходов к загрузке моделей и утилизации GPU в продакшене
Глубокий разбор двух архитектур для AI-инференса: эфемерные модели против оркестрации Ray. Как поднять утилизацию GPU с 15% до 85% и убить холодные старты.
Тестирование RK3588 NPU vs Raspberry Pi 5: реальная производительность Llama 3.1, Qwen и DeepSeek
Сравнительный тест RK3588 NPU и Raspberry Pi 5 для запуска Llama 3.1, Qwen и DeepSeek. Реальные цифры токенов в секунду, проблемы конвертации и выбор платформы.