Учебные материалы
Оптимизация KV-кэша для Qwen 3.6-35B-A3B: PPL, KL divergence и асимметричные K/V на M5 Max
Глубокое тестирование методов экономии KV-кэша для Qwen 3.6-35B-A3B на M5 Max: PPL, KL divergence и асимметричное квантование K/V. Результаты до 1M контекста.
Написание компилятора LLM с нуля: как PyTorch преобразуется в CUDA на 5000 строк Python
Глубокий разбор создания компилятора для LLM: захват графа torch.fx, генерация CUDA ядер, fusion и оптимизация. Практический код и подводные камни. Апрель 2026.
Локальный пайплайн PDF в аудиокнигу: Kokoro 82M, Qwen и llama.cpp
Полный гайд по созданию полностью офлайн-конвейера PDF→аудиокнига: извлечение текста через Qwen, очистка llama.cpp и синтез Kokoro 82M. Без облаков, без затрат,
Аудит безопасности LLM-платформы: как один curl раскрыл все API-ключи
Реальный кейс: как через SSRF и открытые API утекли ключи AI-платформы. Пошаговый гайд по аудиту и защите инфраструктуры LLM.
Как заменить PySpark на YAML: создание пайплайнов данных без разработчиков
Пошаговый гайд: как перевести ETL на декларативные YAML-пайплайны, избавиться от зависимости от разработчиков и ускорить релизы. Актуально на 2026 год.
Как дать кодинг-агенту зрение: MCP-сервер с локальной vision-моделью GLM-5.1
Пошаговый гайд по созданию MCP-сервера с локальной моделью GLM-5.1 Vision 8B для анализа скриншотов и UI. Как дать агенту глаза без облака.
Как сэкономить токены в агентных системах: 6 методов с интерактивными графиками
Инженерный гайд по снижению расхода токенов в агентных системах: prompt caching, semantic caching, lazy-loading инструментов, маршрутизация, субагенты и очистка
llama.cpp NVFP4 Benchmark: Native vs Non-Native Performance on RTX 5090 (Blackwell)
Сравнение производительности NVFP4-квантования в llama.cpp на RTX 5090 (Blackwell). Реальные бенчмарки, сборка native vs non-native, прирост скорости до 50%.
Настройка Claude Code для Spec-Driven Development: рабочее место SDD-кодера
Пошаговое руководство по настройке Claude Code для Spec-Driven Development. Узнайте, как превратить AI-агента в предсказуемого инженера с помощью спецификаций.
GraphRAG против слепоты векторного поиска: кейс Сбера и практический гайд по внедрению
Узнайте, как GraphRAG решает проблему контекста в RAG. На примере Сбера: граф знаний + векторный поиск = идеальный retrieval. Пошаговое руководство.
Скрытая инфляция токенов в Opus 4.7: как изменения токенизатора влияют на расходы
Новый токенизатор Opus 4.7 увеличивает число токенов до 45% — и ваш счет растет. Разбираем причины, тесты и методы защиты бюджета.
Создание ИИ-агента для EdTech-поддержки: чистый Python, Gemini и JSON без фреймворков
Пошаговое руководство по созданию прототипа AI-куратора для образовательной платформы без фреймворков и векторных баз. Чистый Python, Gemini API, JSON планировщ