Гайды по AI и нейросетям

Manual #2537 9 min

Твой личный собеседник в кармане: настраиваем AI-тренера речи на слабом железе

Полный гайд по настройке локального AI-тренера для практики речи и собеседований на Ryzen 5 с 16GB RAM и 4GB VRAM. Выбор моделей, ПО, оптимизация.

Открыть документ

Manual #2536 9 min

Локальный мультимодальный ассистент на Android: как собрать стек из Gemma 3N, RAG и TTS для работы оффлайн

Пошаговый гайд по сборке локального мультимодального ассистента на Android с Gemma 3N, RAG и TTS. Работает полностью оффлайн, не требует интернета.

Открыть документ

Manual #2534 8 min

Оптимизация Kimi 2.5 на vLLM: как выжать 1500 TPS из кластера на 8xRTX 6000 Blackwell

Пошаговый гайд по настройке tensor-parallel для Kimi 2.5 на vLLM. Увеличиваем TPS до 1500 на кластере из 8 RTX 6000 Blackwell.

Открыть документ

Manual #2532 6 min

GPT-OSS 120B: старый добрый монстр, который до сих пор рвет всех в локальном запуске

Архитектура A3B, нативное 4-битное обучение и 120 млрд параметров. Почему GPT-OSS 120B до сих пор быстрее и качественнее новых моделей на домашнем железе.

Открыть документ

Manual #2531 9 min

Kimi K2.5: бенчмарк производительности на железе энтузиастов — Epyc, RTX PRO 6000, SGLang

Подробный бенчмарк Kimi K2.5 на Epyc 9374F и RTX PRO 6000: 497 t/s prefill, сравнение SGLang и vLLM, настройка llmperf-rs. Актуально на январь 2026.

Открыть документ

Manual #2530 7 min

GGUF-файлы Kimi-K2.5 весят больше INT4: парадокс или техническая необходимость?

Глубокий анализ форматов квантования Kimi-K2.5. Почему GGUF весит больше INT4, как получить полную точность при размере <600 ГБ. Решение проблемы.

Открыть документ

Manual #2526 9 min

Когда SQL и векторный поиск дерутся за ваши данные: архитектура локального RAG-пайплайна

Пошаговый гайд по созданию локального RAG-пайплайна, объединяющего текстовый SQL и векторный поиск. Архитектура, инструменты, код на 2026 год.

Открыть документ

Manual #2519 4 min

Что такое n-gram mod в llama.cpp и как он ускоряет вывод моделей (анализ PR от ggerganov)

Разбираем pull request ggerganov в llama.cpp: как n-gram мод ускоряет генерацию текста. Объяснение работы, настройка и сравнение с другими оптимизациями.

Открыть документ

Manual #2512 6 min

Как на самом деле работают чат-боты: разоблачение мифа о диалоге и почему каждый запрос — это новая генерация

Техническое объяснение работы нейросетей: почему каждый запрос к чат-боту — это новая генерация, а не продолжение диалога. Архитектура LLM, перегенерация контек

Открыть документ

Manual #2509 8 min

Как избежать ошибок в мульти-агентных системах: баланс количества, топологии и сложности задач

Практическое руководство по проектированию эффективных мульти-агентных систем. Разбираем типичные ошибки в количестве агентов, топологии взаимодействия и подбор

Открыть документ

Manual #2507 9 min

Внутренний диалог: как грамматики ускоряют LLM в 3 раза и оживляют RPG-персонажей

Технический кейс: ускорение инференса LLM на 300% через грамматики, управление состоянием и внутренние голоса персонажей в RPG. Примеры кода, сравнение методов.

Открыть документ

Manual #2506 7 min

QLoRA на RX 6600: как заставить RDNA2 работать там, где AMD сказала «нет»

Пошаговый гайд по запуску QLoRA на неподдерживаемых AMD GPU (RX 6600, RDNA2). Взлом ROCm, патчи ядра, работающие решения на 30.01.2026.

Открыть документ

Учебные материалы

Твой личный собеседник в кармане: настраиваем AI-тренера речи на слабом железе

Локальный мультимодальный ассистент на Android: как собрать стек из Gemma 3N, RAG и TTS для работы оффлайн

Оптимизация Kimi 2.5 на vLLM: как выжать 1500 TPS из кластера на 8xRTX 6000 Blackwell

GPT-OSS 120B: старый добрый монстр, который до сих пор рвет всех в локальном запуске

Kimi K2.5: бенчмарк производительности на железе энтузиастов — Epyc, RTX PRO 6000, SGLang

GGUF-файлы Kimi-K2.5 весят больше INT4: парадокс или техническая необходимость?

Когда SQL и векторный поиск дерутся за ваши данные: архитектура локального RAG-пайплайна

Что такое n-gram mod в llama.cpp и как он ускоряет вывод моделей (анализ PR от ggerganov)

Как на самом деле работают чат-боты: разоблачение мифа о диалоге и почему каждый запрос — это новая генерация

Как избежать ошибок в мульти-агентных системах: баланс количества, топологии и сложности задач

Внутренний диалог: как грамматики ускоряют LLM в 3 раза и оживляют RPG-персонажей

QLoRA на RX 6600: как заставить RDNA2 работать там, где AMD сказала «нет»