Гайды по AI и нейросетям

Manual #4783 7 min

Как обучить свой GPT-трансформер с нуля на бюджетном CPU за 39 минут: полный гайд

Пошаговое руководство по обучению GPT-трансформера с нуля на обычном процессоре без GPU. Код, данные, оптимизации для PyTorch 2.4.

Открыть документ

Manual #4779 7 min

Оптимизация serving massive MoE моделей: benchmark Qwen3.5-397B на 8x H20 с SGLang

Практическое руководство по оптимизации serving massive MoE моделей. Benchmark Qwen3.5-397B на 8x H20 с SGLang для экономии compute budget.

Открыть документ

Manual #4776 8 min

Как исправить ошибку 'Failed to parse at pos' в llama.cpp: полное руководство по откату и патчу

Полное руководство по исправлению ошибки парсера в llama.cpp, включая откат коммита 34df42f7b, использование флага --skip-chat-parsing и ручной патч chat.cpp.

Открыть документ

Manual #4774 9 min

Доменные эмбеддинги за 24 часа: рецепт от NVIDIA, который не требует ни одного размеченного примера

Пошаговая инструкция по созданию доменных моделей эмбеддингов с синтетическими данными. Код, конфиги и разбор ошибок от NVIDIA.

Открыть документ

Manual #4773 9 min

Как создать реалистичного ИИ-собеседника в стиле GenZ с задержками ответов

Полный гайд по созданию ИИ-собеседника в стиле GenZ. Асинхронность, задержки ответов, обработка прерываний, Sendblue API. Актуальные LLM на март 2026.

Открыть документ

Manual #4769 7 min

Как исправить Qwen3.5 35B: фикс зацикливания и перерасхода токенов через тонкую настройку

Пошаговый гайд по тонкой настройке Qwen3.5 35B. Убираем зацикливание, экономим до 70% токенов. Подготовка данных, выбор инструментов на 2026 год, разбор ошибок.

Открыть документ

Manual #4767 6 min

Математика сбоя AI-агентов: почему 85% точности - это катастрофа (разбор инцидента с Replit)

Анализ инцидента с удалением БД в Replit. Математика вероятности сбоя AI-агентов. Почему 85% точности недостаточно для продакшена на 20.03.2026.

Открыть документ

Manual #4764 9 min

Промышленная транскрибация на Whisper: как ЮMoney масштабировали сервис для тысяч часов аудио

Разбираем архитектуру сервиса транскрибации ЮMoney. Чанкование, диаризация, голосовые эмбеддинги на Whisper v3. Технический гайд по обработке тысяч часов звонко

Открыть документ

Manual #4760 7 min

Инструкции забываются, запреты работают: почему LLM игнорируют ваши указания в длинных контекстах

Почему инструкции забываются в длинных контекстах LLM и как запреты решают проблему. Практическое руководство по промпт-инжинирингу на 2026 год.

Открыть документ

Manual #4757 8 min

Три провальные ловушки Agentic RAG: Retrieval Thrash, Tool Storms, Context Bloat — диагностика и защита

Глубокий разбор трех опасных failure modes Agentic RAG: как диагностировать и защититься от Retrieval Thrash, Tool Storms и Context Bloat в production-системах

Открыть документ

Manual #4756 12 min

KV cache vs. весовая квантизация: Как экономить VRAM для параллельных запросов в Qwen 35B

Практическое руководство по экономии памяти для параллельных запросов в Qwen 35B. Сравниваем KV cache quantization и Q4_K_M, разбираем настройку Ollama и Open W

Открыть документ

Manual #4753 7 min

Рефакторинг кода на Java с помощью LLM: практический гайд по миграции Feature Flags

Пошаговая инструкция по использованию LLM для автоматической миграции Feature Flags в Java-коде. Готовые промпты, примеры кода до и после, актуальные инструмент

Открыть документ

Учебные материалы

Как обучить свой GPT-трансформер с нуля на бюджетном CPU за 39 минут: полный гайд

Оптимизация serving massive MoE моделей: benchmark Qwen3.5-397B на 8x H20 с SGLang

Как исправить ошибку 'Failed to parse at pos' в llama.cpp: полное руководство по откату и патчу

Доменные эмбеддинги за 24 часа: рецепт от NVIDIA, который не требует ни одного размеченного примера

Как создать реалистичного ИИ-собеседника в стиле GenZ с задержками ответов

Как исправить Qwen3.5 35B: фикс зацикливания и перерасхода токенов через тонкую настройку

Математика сбоя AI-агентов: почему 85% точности - это катастрофа (разбор инцидента с Replit)

Промышленная транскрибация на Whisper: как ЮMoney масштабировали сервис для тысяч часов аудио

Инструкции забываются, запреты работают: почему LLM игнорируют ваши указания в длинных контекстах

Три провальные ловушки Agentic RAG: Retrieval Thrash, Tool Storms, Context Bloat — диагностика и защита

KV cache vs. весовая квантизация: Как экономить VRAM для параллельных запросов в Qwen 35B

Рефакторинг кода на Java с помощью LLM: практический гайд по миграции Feature Flags