Гайды по AI и нейросетям

Manual #6559 8 min

Как победить галлюцинации LLM в AI-RPG: гибридный Guard с Embedding, микро-LLM и State Validator

Пошаговое руководство по гибридному Guard для борьбы с галлюцинациями в AI-играх: Embedding Classifier, микро-LLM Extractor и State Validator. Решает проклятие

Открыть документ

Manual #6558 5 min

GPUDirect Storage + TurboQuant на AWS: ускоряем загрузку LLM и раздвигаем контекстное окно до небес

Как снизить TTFT и увеличить контекст до 1M токенов на инстансах P6e (Blackwell) с GPUDirect Storage и TurboQuant KV-сжатием. Подробный гайд с Terraform и кодом

Открыть документ

Manual #6552 7 min

AI-компаньон в проде: 5 архитектурных решений для памяти, визуала и прод-тюнинга

Инженерный разбор: Redis + ChromaDB, IP-Adapter, LoRA и юнит‑экономика. Как не угробить проект AI‑чата в проде. Даты, кейсы, ошибки.

Открыть документ

Manual #6548 9 min

Запуск Qwen3.5-35B на двух Tesla V100: обратный SSH, AWQ квантование и Telegram Mini App для AI-репетитора

Пошаговое руководство: квантование AWQ, обход FlashAttention на Volta, настройка обратного SSH и Telegram Mini App. Реальный опыт запуска MoE-модели на старых G

Открыть документ

Manual #6546 9 min

MCP с локальными моделями: как настроить инструменты для Ollama и Open Web UI

Пошаговое руководство по подключению MCP-серверов к локальным LLM через Ollama и Open Web UI. Решаем проблему фейковых вызовов инструментов и настраиваем реальн

Открыть документ

Manual #6539 8 min

Когда исчезает датасет: восстановление данных в AI-проектах без паники

Открыть документ

Manual #6535 1 min

Как обучить GPT-1 на домашнем ПК с RTX 2060 Super: пошаговое руководство с кодом

Пошаговое руководство: обучение GPT-1 на домашнем ПК с 8GB VRAM. Код, среда, нюансы. Эксперимент с исторической архитектурой трансформера.

Открыть документ

Manual #6534 9 min

Запускаем Qwen2-7B Q8 на i7-4770k: боль и магия квантования

Как заставить Qwen2-7B Q8 работать на процессоре 2013 года с 32 ГБ ОЗУ. Настройка swap, квантование, оптимизация llama.cpp — полный рецепт без видеокарты.

Открыть документ

Manual #6533 8 min

Dynamic Workflows от Claude Code на реальном проекте: что сработало и где не стоит тратить токены

Реальный кейс применения Dynamic Workflows Claude Code на проекте Family Cinema с фреймворком NaCl. Разбор успешных сценариев и мест, где токены улетают впустую

Открыть документ

Manual #6529 1 min

Reranker не панацея: 4 кейса, когда cross-encoder ломает ваш RAG

Разбор 4 реальных сценариев, где реранкер не просто бесполезен, а вредит: юридические артефакты, latency-ловушки, слепые пятна на редких терминах и эффект шума

Открыть документ

Manual #6527 7 min

Abliteration Gemma 4: 13 методов, реальные бенчмарки и что работает (а что нет)

Сравнение 13 методов abliteration для Gemma 4 E2B. ASR 96%, сохранение GSM8K, тесты на RTX 5090. Практические советы и код.

Открыть документ

Manual #6526 7 min

Proxy-Pointer RAG: как сократить затраты на построение графов знаний с помощью Graphability Indexing

Новый метод Proxy-Pointer RAG сокращает токены на построение графов знаний до 70%. Разбираем Graphability Indexing на примере юридических документов.

Открыть документ

Учебные материалы

Как победить галлюцинации LLM в AI-RPG: гибридный Guard с Embedding, микро-LLM и State Validator

GPUDirect Storage + TurboQuant на AWS: ускоряем загрузку LLM и раздвигаем контекстное окно до небес

AI-компаньон в проде: 5 архитектурных решений для памяти, визуала и прод-тюнинга

Запуск Qwen3.5-35B на двух Tesla V100: обратный SSH, AWQ квантование и Telegram Mini App для AI-репетитора

MCP с локальными моделями: как настроить инструменты для Ollama и Open Web UI

Когда исчезает датасет: восстановление данных в AI-проектах без паники

Как обучить GPT-1 на домашнем ПК с RTX 2060 Super: пошаговое руководство с кодом

Запускаем Qwen2-7B Q8 на i7-4770k: боль и магия квантования

Dynamic Workflows от Claude Code на реальном проекте: что сработало и где не стоит тратить токены

Reranker не панацея: 4 кейса, когда cross-encoder ломает ваш RAG

Abliteration Gemma 4: 13 методов, реальные бенчмарки и что работает (а что нет)

Proxy-Pointer RAG: как сократить затраты на построение графов знаний с помощью Graphability Indexing