Учебные материалы
Твой личный собеседник в кармане: настраиваем AI-тренера речи на слабом железе
Полный гайд по настройке локального AI-тренера для практики речи и собеседований на Ryzen 5 с 16GB RAM и 4GB VRAM. Выбор моделей, ПО, оптимизация.
Локальный мультимодальный ассистент на Android: как собрать стек из Gemma 3N, RAG и TTS для работы оффлайн
Пошаговый гайд по сборке локального мультимодального ассистента на Android с Gemma 3N, RAG и TTS. Работает полностью оффлайн, не требует интернета.
Оптимизация Kimi 2.5 на vLLM: как выжать 1500 TPS из кластера на 8xRTX 6000 Blackwell
Пошаговый гайд по настройке tensor-parallel для Kimi 2.5 на vLLM. Увеличиваем TPS до 1500 на кластере из 8 RTX 6000 Blackwell.
GPT-OSS 120B: старый добрый монстр, который до сих пор рвет всех в локальном запуске
Архитектура A3B, нативное 4-битное обучение и 120 млрд параметров. Почему GPT-OSS 120B до сих пор быстрее и качественнее новых моделей на домашнем железе.
Kimi K2.5: бенчмарк производительности на железе энтузиастов — Epyc, RTX PRO 6000, SGLang
Подробный бенчмарк Kimi K2.5 на Epyc 9374F и RTX PRO 6000: 497 t/s prefill, сравнение SGLang и vLLM, настройка llmperf-rs. Актуально на январь 2026.
GGUF-файлы Kimi-K2.5 весят больше INT4: парадокс или техническая необходимость?
Глубокий анализ форматов квантования Kimi-K2.5. Почему GGUF весит больше INT4, как получить полную точность при размере <600 ГБ. Решение проблемы.
Когда SQL и векторный поиск дерутся за ваши данные: архитектура локального RAG-пайплайна
Пошаговый гайд по созданию локального RAG-пайплайна, объединяющего текстовый SQL и векторный поиск. Архитектура, инструменты, код на 2026 год.
Что такое n-gram mod в llama.cpp и как он ускоряет вывод моделей (анализ PR от ggerganov)
Разбираем pull request ggerganov в llama.cpp: как n-gram мод ускоряет генерацию текста. Объяснение работы, настройка и сравнение с другими оптимизациями.
Как на самом деле работают чат-боты: разоблачение мифа о диалоге и почему каждый запрос — это новая генерация
Техническое объяснение работы нейросетей: почему каждый запрос к чат-боту — это новая генерация, а не продолжение диалога. Архитектура LLM, перегенерация контек
Как избежать ошибок в мульти-агентных системах: баланс количества, топологии и сложности задач
Практическое руководство по проектированию эффективных мульти-агентных систем. Разбираем типичные ошибки в количестве агентов, топологии взаимодействия и подбор
Внутренний диалог: как грамматики ускоряют LLM в 3 раза и оживляют RPG-персонажей
Технический кейс: ускорение инференса LLM на 300% через грамматики, управление состоянием и внутренние голоса персонажей в RPG. Примеры кода, сравнение методов.
QLoRA на RX 6600: как заставить RDNA2 работать там, где AMD сказала «нет»
Пошаговый гайд по запуску QLoRA на неподдерживаемых AMD GPU (RX 6600, RDNA2). Взлом ROCm, патчи ядра, работающие решения на 30.01.2026.