Учебные материалы
Как победить галлюцинации LLM в AI-RPG: гибридный Guard с Embedding, микро-LLM и State Validator
Пошаговое руководство по гибридному Guard для борьбы с галлюцинациями в AI-играх: Embedding Classifier, микро-LLM Extractor и State Validator. Решает проклятие
GPUDirect Storage + TurboQuant на AWS: ускоряем загрузку LLM и раздвигаем контекстное окно до небес
Как снизить TTFT и увеличить контекст до 1M токенов на инстансах P6e (Blackwell) с GPUDirect Storage и TurboQuant KV-сжатием. Подробный гайд с Terraform и кодом
AI-компаньон в проде: 5 архитектурных решений для памяти, визуала и прод-тюнинга
Инженерный разбор: Redis + ChromaDB, IP-Adapter, LoRA и юнит‑экономика. Как не угробить проект AI‑чата в проде. Даты, кейсы, ошибки.
Запуск Qwen3.5-35B на двух Tesla V100: обратный SSH, AWQ квантование и Telegram Mini App для AI-репетитора
Пошаговое руководство: квантование AWQ, обход FlashAttention на Volta, настройка обратного SSH и Telegram Mini App. Реальный опыт запуска MoE-модели на старых G
MCP с локальными моделями: как настроить инструменты для Ollama и Open Web UI
Пошаговое руководство по подключению MCP-серверов к локальным LLM через Ollama и Open Web UI. Решаем проблему фейковых вызовов инструментов и настраиваем реальн
Когда исчезает датасет: восстановление данных в AI-проектах без паники
Как обучить GPT-1 на домашнем ПК с RTX 2060 Super: пошаговое руководство с кодом
Пошаговое руководство: обучение GPT-1 на домашнем ПК с 8GB VRAM. Код, среда, нюансы. Эксперимент с исторической архитектурой трансформера.
Запускаем Qwen2-7B Q8 на i7-4770k: боль и магия квантования
Как заставить Qwen2-7B Q8 работать на процессоре 2013 года с 32 ГБ ОЗУ. Настройка swap, квантование, оптимизация llama.cpp — полный рецепт без видеокарты.
Dynamic Workflows от Claude Code на реальном проекте: что сработало и где не стоит тратить токены
Реальный кейс применения Dynamic Workflows Claude Code на проекте Family Cinema с фреймворком NaCl. Разбор успешных сценариев и мест, где токены улетают впустую
Reranker не панацея: 4 кейса, когда cross-encoder ломает ваш RAG
Разбор 4 реальных сценариев, где реранкер не просто бесполезен, а вредит: юридические артефакты, latency-ловушки, слепые пятна на редких терминах и эффект шума
Abliteration Gemma 4: 13 методов, реальные бенчмарки и что работает (а что нет)
Сравнение 13 методов abliteration для Gemma 4 E2B. ASR 96%, сохранение GSM8K, тесты на RTX 5090. Практические советы и код.
Proxy-Pointer RAG: как сократить затраты на построение графов знаний с помощью Graphability Indexing
Новый метод Proxy-Pointer RAG сокращает токены на построение графов знаний до 70%. Разбираем Graphability Indexing на примере юридических документов.