Гайды по AI и нейросетям

Manual #1965 10 min

Как запустить полностью офлайн RAG-пайплайн на Android: Gemma 3, кастомная модель поиска SEE и оптимизация батареи

Полный гайд по запуску офлайн RAG-пайплайна на Android с Gemma 3 270M, кастомной моделью поиска SEE и оптимизацией энергопотребления. Практические метрики и реш

Открыть документ

Manual #1963 8 min

Таксономия методов тонкой настройки LLM: полный гид для начинающих

Подробное сравнение методов fine-tuning LLM в 2026 году. LoRA vs QLoRA, инструктивное обучение, DPO, полная настройка. Как выбрать метод для вашей задачи.

Открыть документ

Manual #1962 9 min

Корпоративный ИИ-агент: как Яндекс построил DeepResearch и почему ваш RAG уже устарел

Практический разбор корпоративного ИИ-агента Яндекса: эволюция архитектуры, ключевые ошибки и готовые решения для работы с внутренними данными.

Открыть документ

Manual #1959 7 min

RTX 6000 Blackwell не POSTится: спасение системы за $15,000 через сброс CMOS и IPMI

Детальный гайд по решению проблем с загрузкой ОС на RTX 6000 Blackwell с Epyc Genoa. Сброс CMOS, настройка IPMI, стабилизация Ubuntu для локальных LLM.

Открыть документ

Manual #1955 7 min

Claude Code течет как решето: что на самом деле уходит в облако при 'локальном' запуске

Проверка сетевого трафика Claude Code. Какие данные отправляются в Anthropic при локальном использовании и как полностью отключить облачные соединения.

Открыть документ

Manual #1954 9 min

Запускаем Claude Code локально с GLM-4.7 Flash: полный гайд с Docker и автовыгрузкой VRAM

Пошаговый гайд по запуску GLM-4.7 Flash локально через llama.cpp server с Docker, автовыгрузкой VRAM и полной заменой Claude Code API. Конфигурация, параметры,

Открыть документ

Manual #1953 11 min

Как настроить observability для LLM-агентов: трассировка, мониторинг затрат и анализ производительности с Langfuse

Полное руководство по настройке observability для LLM-агентов в 2026 году. Трассировка, мониторинг токенов, анализ стоимости и производительности с Langfuse.

Открыть документ

Manual #1952 7 min

AI Gateway против кастомных решений: Vercel, LiteLLM и OpenRouter для продакшн-приложений

Полное техническое сравнение AI Gateway решений для продакшн-приложений. Vercel AI Gateway, LiteLLM и OpenRouter: архитектура, ограничения и streaming-консистен

Открыть документ

Manual #1951 8 min

Заклинание драконов: как заставить NVIDIA и Intel ARC работать вместе для LLM

Полное руководство по запуску LLM на смешанных GPU. Pipeline и tensor параллелизм, распределение нагрузки, оценка оверхеда, актуальные инструменты на 2026 год.

Открыть документ

Manual #1950 8 min

SGLang против vLLM: битва за миллисекунды в инференсе LLM

Полный разбор SGLang (RadixArk) и vLLM: архитектура, производительность, настройка для высоконагруженных LLM-систем. Актуально на январь 2026.

Открыть документ

Manual #1948 9 min

Ephemeral vs Ray: Сравнение подходов к загрузке моделей и утилизации GPU в продакшене

Глубокий разбор двух архитектур для AI-инференса: эфемерные модели против оркестрации Ray. Как поднять утилизацию GPU с 15% до 85% и убить холодные старты.

Открыть документ

Manual #1946 6 min

Тестирование RK3588 NPU vs Raspberry Pi 5: реальная производительность Llama 3.1, Qwen и DeepSeek

Сравнительный тест RK3588 NPU и Raspberry Pi 5 для запуска Llama 3.1, Qwen и DeepSeek. Реальные цифры токенов в секунду, проблемы конвертации и выбор платформы.

Открыть документ

Учебные материалы

Как запустить полностью офлайн RAG-пайплайн на Android: Gemma 3, кастомная модель поиска SEE и оптимизация батареи

Таксономия методов тонкой настройки LLM: полный гид для начинающих

Корпоративный ИИ-агент: как Яндекс построил DeepResearch и почему ваш RAG уже устарел

RTX 6000 Blackwell не POSTится: спасение системы за $15,000 через сброс CMOS и IPMI

Claude Code течет как решето: что на самом деле уходит в облако при 'локальном' запуске

Запускаем Claude Code локально с GLM-4.7 Flash: полный гайд с Docker и автовыгрузкой VRAM

Как настроить observability для LLM-агентов: трассировка, мониторинг затрат и анализ производительности с Langfuse

AI Gateway против кастомных решений: Vercel, LiteLLM и OpenRouter для продакшн-приложений

Заклинание драконов: как заставить NVIDIA и Intel ARC работать вместе для LLM

SGLang против vLLM: битва за миллисекунды в инференсе LLM

Ephemeral vs Ray: Сравнение подходов к загрузке моделей и утилизации GPU в продакшене

Тестирование RK3588 NPU vs Raspberry Pi 5: реальная производительность Llama 3.1, Qwen и DeepSeek