Учебные материалы
Q8 vs Q6: полный гайд по выбору квантования для локальных LLM в 2024
Полный гайд по выбору между Q8 и Q6 квантованием для локальных LLM. Сравнение VRAM, скорости, perplexity и практические рекомендации для 2024 года.
Как убить задержку в голосовом AI для нескольких пользователей: WebRTC, Fishjam и серверный VAD
Гайд по созданию голосового AI с задержкой <1с для нескольких пользователей: WebRTC, Fishjam SFU и серверный VAD. Архитектура и код на 2026 год.
Локальный голосовой агент с задержкой 375 мс: Nemotron-4 + Kokoro-82M на bare metal
Полный гайд по сборке локального голосового AI-агента с задержкой 375 мс. Nemotron-4 340B с квантованием 4-bit, Kokoro-82M TTS, bare metal сервер. Пошаговая инс
Когда токены вздуваются: как бороться с раздуванием в неанглийских языках
Практическое руководство по оптимизации локальных LLM для русского и других языков. Сравнение моделей, токенизаторов и промптов для ускорения работы.
AI coding в 2026: 6 правил, которые спасут ваш код от ИИ-хаоса
Тимур Хахалев и Денис Киселев о том, как работать с AI-ассистентами в 2026 без потери контроля над кодом. Практические правила для код-ревью и автоматизации.
Как выжать +50% скорости из vLLM на 4x RTX 3090: патч драйвера, BIOS и проверка PCIe
Полное руководство по ускорению vLLM на 4 картах RTX 3090. Патч P2P драйвера, настройка Resizable BAR, проверка PCIe lanes. +50% скорости инференса.
Архитектура базовой модели Netflix: как перестать плодить ML-монстров и начать жить
Глубокий разбор архитектуры единой базовой модели Netflix. Как централизованное обучение, извлечение признаков и ML-платформа ускоряют разработку в 5 раз.
397 миллиардов параметров на вашем ПК: запускаем Qwen3.5-397B локально через Unsloth и GGUF
Полное руководство по запуску гигантской MoE-модели Qwen3.5-397B на домашнем ПК. Квантование 4-bit, Unsloth, требования к RAM и GPU, сравнение с GPT-5.2
LeetCode Assembly Dataset: когда компилятор говорит с ИИ на ассемблере
Полный гайд по LeetCode Assembly Dataset: как обучать LLM на 400+ решениях x86-64/ARM64/MIPS64/RISC-V с GCC/Clang оптимизациями для низкоуровневого программиров
OpenClaw на российских стероидах: подключаем GigaChat, YandexGPT и Yandex 360 за 30 минут
Пошаговый гайд по подключению GigaChat Pro, YandexGPT 3.0 и Yandex 360 к OpenClaw. Создаем мультиагентного ассистента с российскими AI-сервисами.
Глубокий разбор DGX Spark (GB10) для локального LLM: когда 128 ГБ памяти не спасают, а когда — лучший выбор
Экспертный анализ NVIDIA DGX Spark GB10 для локальных LLM. Сравнение с RTX 4090, тесты памяти, квантование моделей и когда 128 ГБ unified memory действительно н
AMD vs NVIDIA для обучения LLM: Зачем я продал RX 7900 XTX и купил RTX 3090
Почему ROCm для обучения LLM — это боль в 2026 году. Реальный опыт миграции с RX 7900 XTX на RTX 3090, сравнение производительности и сборка мульти-GPU системы.