Гайды по AI и нейросетям

Manual #2980 7 min

20-30B MoE для tool calling: кто не галлюцинирует с файлами и поиском?

Тестируем 20-30B MoE модели на чтение файлов и веб-поиск. Сравнение Qwen2.5-32B-Instruct, DeepSeek-V3-16B, Yi-1.5-34B и других на реальных задачах.

Открыть документ

Manual #2978 10 min

Как создать свой собственный LLM-инференс-движок: опыт оптимизации для CPU и Raspberry Pi 5

Практический гайд по созданию LLM-инференс-движка с оптимизацией памяти до 1.2 ГБ и скоростью 0.2 с/токен на CPU. Сравнение с LM Studio.

Открыть документ

Manual #2976 9 min

Adaptive Thinking в Opus 4.6: как Anthropic автоматизировала выбор глубины reasoning и что это даёт разработчикам

Разбираем Adaptive Thinking в Claude Opus 4.6 — как Anthropic автоматизировала выбор think/ultrathink режимов и что это значит для вашего кода и бюджета.

Открыть документ

Manual #2972 7 min

Пошаговый гайд: сборка llama.cpp с SYCL для Intel Arc и тест Qwen3-Coder-Next

Полный гайд по сборке llama.cpp с SYCL бэкендом для Intel Arc GPU. Установка oneAPI, настройка Fedora, тест производительности Qwen3-Coder-Next на 07.02.2026.

Открыть документ

Manual #2970 9 min

OpenClaw vs память-ориентированные агенты: битва архитектур, которая сэкономит вам 75% токенов

Техническое сравнение OpenClaw и память-ориентированных агентов: производительность, стоимость токенов, установка Ollama. Как экономить до 75% на AI-агентах.

Открыть документ

Manual #2968 5 min

Nemo 30B с 1 миллионом токенов на RTX 3090: когда контекст длиннее романа Достоевского

Подробный гайд по запуску модели Nemo 30B с контекстом 1 миллион токенов на одной видеокарте RTX 3090. Оптимизация llama.cpp, CPU offloading, сравнение производ

Открыть документ

Manual #2966 6 min

Fine-tuning в 2026: почему 90% команд тратят ресурсы впустую

Практический гайд по выбору между fine-tuning и prompt-tuning в 2026. Когда тратить ресурсы на дообучение, а когда промптов достаточно.

Открыть документ

Manual #2963 7 min

GPT-OSS-20B против GLM-4.7-Flash и Step-3.5-Flash: где ваши токены утекают в песок

Технический анализ трех локальных LLM на 07.02.2026: сравниваем качество reasoning, потребление токенов и практическую применимость для домашних AI-лабораторий.

Открыть документ

Manual #2956 10 min

Почему RAG для 2000 сотрудников на CPU-сервере обречён на провал: разбор типичных ошибок внедрения корпоративного AI

Почему корпоративный RAG с 2000 пользователями на CPU-сервере обречён. Разбираем реальный кейс с потерей 20k$, расчёт ресурсов GPU и типичные ошибки внедрения A

Открыть документ

Manual #2955 8 min

Claude Code Router на Mac: роутинг между 4 GPU через vLLM и llama-server

Пошаговая настройка распределенного кластера LLM на Mac с 4 GPU. Роутинг запросов между моделями через Claude Code Router, vLLM и llama-server.

Открыть документ

Manual #2954 8 min

SageMaker HyperPod CLI и SDK: когда AWS решила, что управление кластерами должно быть сложным

Полное руководство по CLI и SDK SageMaker HyperPod для распределённого обучения AI моделей. Команды, конфигурация, мониторинг и ошибки.

Открыть документ

Manual #2953 8 min

Локальный перевод с английского на арабский: какие LLM работают лучше Google и как их запустить на RX 6800 XT

Сравнение качества перевода локальных LLM для субтитров. Настройка llama.cpp и Subtitle Edit под AMD RX 6800 XT. Квантование моделей для экономии памяти.

Открыть документ

Учебные материалы

20-30B MoE для tool calling: кто не галлюцинирует с файлами и поиском?

Как создать свой собственный LLM-инференс-движок: опыт оптимизации для CPU и Raspberry Pi 5

Adaptive Thinking в Opus 4.6: как Anthropic автоматизировала выбор глубины reasoning и что это даёт разработчикам

Пошаговый гайд: сборка llama.cpp с SYCL для Intel Arc и тест Qwen3-Coder-Next

OpenClaw vs память-ориентированные агенты: битва архитектур, которая сэкономит вам 75% токенов

Nemo 30B с 1 миллионом токенов на RTX 3090: когда контекст длиннее романа Достоевского

Fine-tuning в 2026: почему 90% команд тратят ресурсы впустую

GPT-OSS-20B против GLM-4.7-Flash и Step-3.5-Flash: где ваши токены утекают в песок

Почему RAG для 2000 сотрудников на CPU-сервере обречён на провал: разбор типичных ошибок внедрения корпоративного AI

Claude Code Router на Mac: роутинг между 4 GPU через vLLM и llama-server

SageMaker HyperPod CLI и SDK: когда AWS решила, что управление кластерами должно быть сложным

Локальный перевод с английского на арабский: какие LLM работают лучше Google и как их запустить на RX 6800 XT