Гайды по AI и нейросетям

Manual #5769 9 min

Оптимизация KV-кэша для Qwen 3.6-35B-A3B: PPL, KL divergence и асимметричные K/V на M5 Max

Глубокое тестирование методов экономии KV-кэша для Qwen 3.6-35B-A3B на M5 Max: PPL, KL divergence и асимметричное квантование K/V. Результаты до 1M контекста.

Открыть документ

Manual #5768 7 min

Написание компилятора LLM с нуля: как PyTorch преобразуется в CUDA на 5000 строк Python

Глубокий разбор создания компилятора для LLM: захват графа torch.fx, генерация CUDA ядер, fusion и оптимизация. Практический код и подводные камни. Апрель 2026.

Открыть документ

Manual #5767 8 min

Локальный пайплайн PDF в аудиокнигу: Kokoro 82M, Qwen и llama.cpp

Полный гайд по созданию полностью офлайн-конвейера PDF→аудиокнига: извлечение текста через Qwen, очистка llama.cpp и синтез Kokoro 82M. Без облаков, без затрат,

Открыть документ

Manual #5766 6 min

Аудит безопасности LLM-платформы: как один curl раскрыл все API-ключи

Реальный кейс: как через SSRF и открытые API утекли ключи AI-платформы. Пошаговый гайд по аудиту и защите инфраструктуры LLM.

Открыть документ

Manual #5762 1 min

Как заменить PySpark на YAML: создание пайплайнов данных без разработчиков

Пошаговый гайд: как перевести ETL на декларативные YAML-пайплайны, избавиться от зависимости от разработчиков и ускорить релизы. Актуально на 2026 год.

Открыть документ

Manual #5760 9 min

Как дать кодинг-агенту зрение: MCP-сервер с локальной vision-моделью GLM-5.1

Пошаговый гайд по созданию MCP-сервера с локальной моделью GLM-5.1 Vision 8B для анализа скриншотов и UI. Как дать агенту глаза без облака.

Открыть документ

Manual #5759 10 min

Как сэкономить токены в агентных системах: 6 методов с интерактивными графиками

Инженерный гайд по снижению расхода токенов в агентных системах: prompt caching, semantic caching, lazy-loading инструментов, маршрутизация, субагенты и очистка

Открыть документ

Manual #5758 7 min

llama.cpp NVFP4 Benchmark: Native vs Non-Native Performance on RTX 5090 (Blackwell)

Сравнение производительности NVFP4-квантования в llama.cpp на RTX 5090 (Blackwell). Реальные бенчмарки, сборка native vs non-native, прирост скорости до 50%.

Открыть документ

Manual #5756 9 min

Настройка Claude Code для Spec-Driven Development: рабочее место SDD-кодера

Пошаговое руководство по настройке Claude Code для Spec-Driven Development. Узнайте, как превратить AI-агента в предсказуемого инженера с помощью спецификаций.

Открыть документ

Manual #5755 7 min

GraphRAG против слепоты векторного поиска: кейс Сбера и практический гайд по внедрению

Узнайте, как GraphRAG решает проблему контекста в RAG. На примере Сбера: граф знаний + векторный поиск = идеальный retrieval. Пошаговое руководство.

Открыть документ

Manual #5754 6 min

Скрытая инфляция токенов в Opus 4.7: как изменения токенизатора влияют на расходы

Новый токенизатор Opus 4.7 увеличивает число токенов до 45% — и ваш счет растет. Разбираем причины, тесты и методы защиты бюджета.

Открыть документ

Manual #5753 8 min

Создание ИИ-агента для EdTech-поддержки: чистый Python, Gemini и JSON без фреймворков

Пошаговое руководство по созданию прототипа AI-куратора для образовательной платформы без фреймворков и векторных баз. Чистый Python, Gemini API, JSON планировщ

Открыть документ

Учебные материалы

Оптимизация KV-кэша для Qwen 3.6-35B-A3B: PPL, KL divergence и асимметричные K/V на M5 Max

Написание компилятора LLM с нуля: как PyTorch преобразуется в CUDA на 5000 строк Python

Локальный пайплайн PDF в аудиокнигу: Kokoro 82M, Qwen и llama.cpp

Аудит безопасности LLM-платформы: как один curl раскрыл все API-ключи

Как заменить PySpark на YAML: создание пайплайнов данных без разработчиков

Как дать кодинг-агенту зрение: MCP-сервер с локальной vision-моделью GLM-5.1

Как сэкономить токены в агентных системах: 6 методов с интерактивными графиками

llama.cpp NVFP4 Benchmark: Native vs Non-Native Performance on RTX 5090 (Blackwell)

Настройка Claude Code для Spec-Driven Development: рабочее место SDD-кодера

GraphRAG против слепоты векторного поиска: кейс Сбера и практический гайд по внедрению

Скрытая инфляция токенов в Opus 4.7: как изменения токенизатора влияют на расходы

Создание ИИ-агента для EdTech-поддержки: чистый Python, Gemini и JSON без фреймворков