Гайды по AI и нейросетям

Manual #3221 7 min

Хочешь вытащить свою LLM в интернет? Ты или гений, или самоубийца

Пошаговый гайд по безопасной публикации локальной нейросети в интернет. Настройка VPN, reverse proxy, аутентификации и защиты от атак на 2026 год.

Открыть документ

Manual #3220 12 min

RAG на 2 миллионах страниц: как не сломать всё и не разориться

Пошаговое руководство по построению RAG-системы на 2+ миллионах документов. Архитектура, оптимизация производительности, код и типичные ошибки.

Открыть документ

Manual #3219 5 min

RTX Pro 6000 SE против H100, H200, B200: реальная стоимость токена в vLLM на 2026 год

Полный бенчмарк RTX Pro 6000 SE против H100, H200, B200 в vLLM: токен/сек, стоимость инференса, эксперт-параллелизм. ROI-калькулятор для продакшена.

Открыть документ

Manual #3218 6 min

OpenAI Codex IDE в VSCode с локальным Ollama: заставляем работать то, что не должно

Полный гайд по подключению плагина OpenAI Codex IDE в VSCode к локальному Ollama. Конфигурация config.toml, модель qwen3-coder-next, офлайн-разработка без облак

Открыть документ

Manual #3217 8 min

Запуск 80B MoE-модели на iGPU NAS: пошаговая оптимизация llama.cpp с Vulkan для AMD Ryzen AI

Практический гайд по запуску Qwen3-Coder-Next 80B MoE на встроенной графике NAS через llama.cpp Vulkan. От 3 до 18 токен/с на AMD Ryzen AI с квантованием Q4_K_M

Открыть документ

Manual #3215 8 min

35x ускорение в llama.cpp: почему ngram-mod не работает и как исправить CRLF/LF

Пошаговое руководство по настройке ngram-mod в llama.cpp для 35x ускорения. Исправляем проблему с CRLF/LF в VS Code и git. Анализ производительности на 11.02.20

Открыть документ

Manual #3213 8 min

SAE Steering сломал JSON: почему популярный метод от Anthropic разрушает структурированный вывод

6 экспериментов показывают: активационное стеринг-управление (SAE Steering) разрушает JSON-вывод LLM. Обзор методов, которые действительно работают в 2026 году.

Открыть документ

Manual #3212 9 min

Персональный автокомплит для Discord: как заставить Qwen 14B говорить вашими словами

Пошаговый гайд по созданию персонального автокомплита для Discord: скрапинг сообщений, QLoRA финтюнинг Qwen 14B, развертывание в Ollama и Chrome-расширение.

Открыть документ

Manual #3211 9 min

Как собрать inference-сервер на Threadripper для 24/7 работы с большими моделями: сравнение TRX40 vs TRX50, GPU и бюджета

Практический гайд по сборке сервера для 24/7 инференса больших моделей на Threadripper. Сравнение TRX40 и TRX50, выбор GPU (RTX 6000 Pro, A40, L40S), бюджет от

Открыть документ

Manual #3210 5 min

MiniCPM-o 4.5 теперь говорит: Full Duplex голосовой и видеочат на вашем компьютере

Полная инструкция по установке голосового и видеочата MiniCPM-o 4.5 с Full Duplex на Windows и Linux. One-click installer, Docker, CUDA поддержка.

Открыть документ

Manual #3207 11 min

MOHAWK: как изолировать AI-агентов так, чтобы они не сбежали и не убили вашу инфраструктуру

Глубокий разбор MOHAWK - фреймворка для изоляции AI-агентов. 4 слоя безопасности: WebAssembly, Zero-Trust Manifests, TPM, Circuit Breaker. Практическая реализац

Открыть документ

Manual #3206 9 min

CPU-only инференс LLM: полное руководство по оптимизации скорости и памяти без видеокарты

Полное руководство по запуску локальных LLM на CPU без видеокарты. Оптимизация llama.cpp, настройка RAM, выбор моделей и реальные тесты производительности на 10

Открыть документ

Учебные материалы

Хочешь вытащить свою LLM в интернет? Ты или гений, или самоубийца

RAG на 2 миллионах страниц: как не сломать всё и не разориться

RTX Pro 6000 SE против H100, H200, B200: реальная стоимость токена в vLLM на 2026 год

OpenAI Codex IDE в VSCode с локальным Ollama: заставляем работать то, что не должно

Запуск 80B MoE-модели на iGPU NAS: пошаговая оптимизация llama.cpp с Vulkan для AMD Ryzen AI

35x ускорение в llama.cpp: почему ngram-mod не работает и как исправить CRLF/LF

SAE Steering сломал JSON: почему популярный метод от Anthropic разрушает структурированный вывод

Персональный автокомплит для Discord: как заставить Qwen 14B говорить вашими словами

Как собрать inference-сервер на Threadripper для 24/7 работы с большими моделями: сравнение TRX40 vs TRX50, GPU и бюджета

MiniCPM-o 4.5 теперь говорит: Full Duplex голосовой и видеочат на вашем компьютере

MOHAWK: как изолировать AI-агентов так, чтобы они не сбежали и не убили вашу инфраструктуру

CPU-only инференс LLM: полное руководство по оптимизации скорости и памяти без видеокарты