Гайды по AI и нейросетям

Manual #2538 7 min

Почему open-source модели проваливаются в бою, пока лидируют в гонках: разрыв между цифрами и реальностью

Глубокий разбор: почему open-source модели показывают отличные результаты на тестах, но проваливаются в реальных задачах. Сравнение Claude, DeepSeek, Grok, анал

Открыть документ

Manual #2537 9 min

Твой личный собеседник в кармане: настраиваем AI-тренера речи на слабом железе

Полный гайд по настройке локального AI-тренера для практики речи и собеседований на Ryzen 5 с 16GB RAM и 4GB VRAM. Выбор моделей, ПО, оптимизация.

Открыть документ

Manual #2536 9 min

Локальный мультимодальный ассистент на Android: как собрать стек из Gemma 3N, RAG и TTS для работы оффлайн

Пошаговый гайд по сборке локального мультимодального ассистента на Android с Gemma 3N, RAG и TTS. Работает полностью оффлайн, не требует интернета.

Открыть документ

Manual #2534 8 min

Оптимизация Kimi 2.5 на vLLM: как выжать 1500 TPS из кластера на 8xRTX 6000 Blackwell

Пошаговый гайд по настройке tensor-parallel для Kimi 2.5 на vLLM. Увеличиваем TPS до 1500 на кластере из 8 RTX 6000 Blackwell.

Открыть документ

Manual #2532 6 min

GPT-OSS 120B: старый добрый монстр, который до сих пор рвет всех в локальном запуске

Архитектура A3B, нативное 4-битное обучение и 120 млрд параметров. Почему GPT-OSS 120B до сих пор быстрее и качественнее новых моделей на домашнем железе.

Открыть документ

Manual #2531 9 min

Kimi K2.5: бенчмарк производительности на железе энтузиастов — Epyc, RTX PRO 6000, SGLang

Подробный бенчмарк Kimi K2.5 на Epyc 9374F и RTX PRO 6000: 497 t/s prefill, сравнение SGLang и vLLM, настройка llmperf-rs. Актуально на январь 2026.

Открыть документ

Manual #2530 7 min

GGUF-файлы Kimi-K2.5 весят больше INT4: парадокс или техническая необходимость?

Глубокий анализ форматов квантования Kimi-K2.5. Почему GGUF весит больше INT4, как получить полную точность при размере <600 ГБ. Решение проблемы.

Открыть документ

Manual #2526 9 min

Когда SQL и векторный поиск дерутся за ваши данные: архитектура локального RAG-пайплайна

Пошаговый гайд по созданию локального RAG-пайплайна, объединяющего текстовый SQL и векторный поиск. Архитектура, инструменты, код на 2026 год.

Открыть документ

Manual #2519 4 min

Что такое n-gram mod в llama.cpp и как он ускоряет вывод моделей (анализ PR от ggerganov)

Разбираем pull request ggerganov в llama.cpp: как n-gram мод ускоряет генерацию текста. Объяснение работы, настройка и сравнение с другими оптимизациями.

Открыть документ

Manual #2512 6 min

Как на самом деле работают чат-боты: разоблачение мифа о диалоге и почему каждый запрос — это новая генерация

Техническое объяснение работы нейросетей: почему каждый запрос к чат-боту — это новая генерация, а не продолжение диалога. Архитектура LLM, перегенерация контек

Открыть документ

Manual #2509 8 min

Как избежать ошибок в мульти-агентных системах: баланс количества, топологии и сложности задач

Практическое руководство по проектированию эффективных мульти-агентных систем. Разбираем типичные ошибки в количестве агентов, топологии взаимодействия и подбор

Открыть документ

Manual #2507 9 min

Внутренний диалог: как грамматики ускоряют LLM в 3 раза и оживляют RPG-персонажей

Технический кейс: ускорение инференса LLM на 300% через грамматики, управление состоянием и внутренние голоса персонажей в RPG. Примеры кода, сравнение методов.

Открыть документ

Учебные материалы

Почему open-source модели проваливаются в бою, пока лидируют в гонках: разрыв между цифрами и реальностью

Твой личный собеседник в кармане: настраиваем AI-тренера речи на слабом железе

Локальный мультимодальный ассистент на Android: как собрать стек из Gemma 3N, RAG и TTS для работы оффлайн

Оптимизация Kimi 2.5 на vLLM: как выжать 1500 TPS из кластера на 8xRTX 6000 Blackwell

GPT-OSS 120B: старый добрый монстр, который до сих пор рвет всех в локальном запуске

Kimi K2.5: бенчмарк производительности на железе энтузиастов — Epyc, RTX PRO 6000, SGLang

GGUF-файлы Kimi-K2.5 весят больше INT4: парадокс или техническая необходимость?

Когда SQL и векторный поиск дерутся за ваши данные: архитектура локального RAG-пайплайна

Что такое n-gram mod в llama.cpp и как он ускоряет вывод моделей (анализ PR от ggerganov)

Как на самом деле работают чат-боты: разоблачение мифа о диалоге и почему каждый запрос — это новая генерация

Как избежать ошибок в мульти-агентных системах: баланс количества, топологии и сложности задач

Внутренний диалог: как грамматики ускоряют LLM в 3 раза и оживляют RPG-персонажей