Учебные материалы
PageIndex: тестируем альтернативу векторному поиску в RAG-системах
Как запустить PageIndex локально, сравнение с векторным поиском, пошаговая настройка и тестирование для RAG-систем. Актуально на 2026 год.
Увеличение контекста ruGPT3XL до 8k: методика, PPL и Sparse Attention
Подробный гайд по увеличению контекста русскоязычной LLM ruGPT3XL до 8000 токенов. Sparse Attention, оценка перплексии, код на Triton и оптимизация для Hugging
Как настроить синтезатор речи на Repka Pi 4: Piper TTS и FastAPI сервер
Подробное руководство по настройке нейросетевого синтеза речи Piper на Repka Pi 4 с созданием своего FastAPI сервера и автозагрузкой через systemd.
Подключаем eGPU NVIDIA к Mac: обманываем Apple Silicon и запускаем Llama 3.2 на 24 ГБ VRAM
Пошаговый гайд: как заставить внешнюю видеокарту NVIDIA работать с Mac на Apple Silicon для ускорения локальных LLM (Llama, Nemotron) через TinyGPU. Аппаратная
Ловушка 64 ГБ ОЗУ на Mac: почему модели 35B-70B — мёртвая зона для локальных LLM и как из неё выйти
Почему модели 35B-70B тормозят на Mac с 64 ГБ ОЗУ. Анализ памяти, квантования, выбор между MLX и llama.cpp. Практический гайд по выходу из ловушки.
Гид по методам экономии памяти и ускорения LLM: TurboQuant, KVTC, RotorQuant и другие
Полное руководство по методам сжатия и ускорения LLM в 2026: TurboQuant, KV Cache Transform Coding, RotorQuant, MXFP4, AutoRound. Сравнение, выбор, ошибки.
Как автоматизировать сбор цен конкурентов с помощью Amazon Nova Act: пошаговый туториал
Пошаговое руководство по мониторингу цен с Amazon Nova Act. Автоматический парсинг e-commerce с браузерной автоматизацией и интеллектуальными агентами.
Сравнение лучших нецензурированных LLM для локального запуска: Qwen3.5 Uncensored, Llama, Mistral и другие
Полный гайд по выбору и запуску нецензурированных LLM на своем ПК. Сравнение Qwen3.5 HauhauCS, Llama 3.3 Uncensored, Mistral 2.0 и других. Тесты, требования к ж
DGX Spark vs облачные B200: реальный кейс и экономия при обучении модели на 6B токенов
Практический разбор обучения модели на 6B токенов: DGX Spark против облачных B200. Цифры производительности, стоимость, проблемы Triton и Mamba-2.
Как суммаризировать 'Войну и мир' на GPU с 10 ГБ памяти: практический гайд по квантованию и обработке длинных текстов
Пошаговый гайд по суммаризации длинных текстов на GPU с 10 ГБ VRAM с помощью 4-битного квантования Saiga Llama 3 8B. Решение проблемы памяти и токенизации.
Практический гайд: Qwen 3.5 для работы с реальными кодобазами — настройка, тесты и сравнение агентских возможностей
Полный гайд по настройке Qwen 3.5 для работы с реальными кодобазами. Тесты производительности, сравнение агентских возможностей, оптимизация под Mac Mini. Работ
Как самостоятельно протестировать AI-агентов: методология логирования HTTP-запросов для проверки реальных действий модели
Практическое руководство по валидации действий AI-агентов через логирование HTTP-запросов. Сравнение Mistral и GPT-5.4-mini, пошаговая методология.