Учебные материалы
Как обучить свой GPT-трансформер с нуля на бюджетном CPU за 39 минут: полный гайд
Пошаговое руководство по обучению GPT-трансформера с нуля на обычном процессоре без GPU. Код, данные, оптимизации для PyTorch 2.4.
Оптимизация serving massive MoE моделей: benchmark Qwen3.5-397B на 8x H20 с SGLang
Практическое руководство по оптимизации serving massive MoE моделей. Benchmark Qwen3.5-397B на 8x H20 с SGLang для экономии compute budget.
Как исправить ошибку 'Failed to parse at pos' в llama.cpp: полное руководство по откату и патчу
Полное руководство по исправлению ошибки парсера в llama.cpp, включая откат коммита 34df42f7b, использование флага --skip-chat-parsing и ручной патч chat.cpp.
Доменные эмбеддинги за 24 часа: рецепт от NVIDIA, который не требует ни одного размеченного примера
Пошаговая инструкция по созданию доменных моделей эмбеддингов с синтетическими данными. Код, конфиги и разбор ошибок от NVIDIA.
Как создать реалистичного ИИ-собеседника в стиле GenZ с задержками ответов
Полный гайд по созданию ИИ-собеседника в стиле GenZ. Асинхронность, задержки ответов, обработка прерываний, Sendblue API. Актуальные LLM на март 2026.
Как исправить Qwen3.5 35B: фикс зацикливания и перерасхода токенов через тонкую настройку
Пошаговый гайд по тонкой настройке Qwen3.5 35B. Убираем зацикливание, экономим до 70% токенов. Подготовка данных, выбор инструментов на 2026 год, разбор ошибок.
Математика сбоя AI-агентов: почему 85% точности - это катастрофа (разбор инцидента с Replit)
Анализ инцидента с удалением БД в Replit. Математика вероятности сбоя AI-агентов. Почему 85% точности недостаточно для продакшена на 20.03.2026.
Промышленная транскрибация на Whisper: как ЮMoney масштабировали сервис для тысяч часов аудио
Разбираем архитектуру сервиса транскрибации ЮMoney. Чанкование, диаризация, голосовые эмбеддинги на Whisper v3. Технический гайд по обработке тысяч часов звонко
Инструкции забываются, запреты работают: почему LLM игнорируют ваши указания в длинных контекстах
Почему инструкции забываются в длинных контекстах LLM и как запреты решают проблему. Практическое руководство по промпт-инжинирингу на 2026 год.
Три провальные ловушки Agentic RAG: Retrieval Thrash, Tool Storms, Context Bloat — диагностика и защита
Глубокий разбор трех опасных failure modes Agentic RAG: как диагностировать и защититься от Retrieval Thrash, Tool Storms и Context Bloat в production-системах
KV cache vs. весовая квантизация: Как экономить VRAM для параллельных запросов в Qwen 35B
Практическое руководство по экономии памяти для параллельных запросов в Qwen 35B. Сравниваем KV cache quantization и Q4_K_M, разбираем настройку Ollama и Open W
Рефакторинг кода на Java с помощью LLM: практический гайд по миграции Feature Flags
Пошаговая инструкция по использованию LLM для автоматической миграции Feature Flags в Java-коде. Готовые промпты, примеры кода до и после, актуальные инструмент