Учебные материалы
Как фрейминг системного промпта меняет энтропию генерации: исследование на 3830 запусков
Как формулировка системного промпта радикально меняет распределение вероятностей в LLM. 3830 запусков, метрики энтропии для Mistral-7B и Mamba, открытый код.
Почему Qwen 3.5 стал прорывом для локального AI-ассистента в коде: туториал по установке и тест против конкурентов
Полное руководство по установке Qwen 3.5 для локального coding assistant. Сравнение с Claude, DeepSeek и другими. Тесты производительности и автономной работы.
Тестирование Qwen3.5-122B-A10B-i1-GGUF на AMD 6000 Pro: как добиться 262K контекста и высокой скорости
Пошаговый гайд по запуску Qwen3.5-122B-A10B-i1-GGUF на AMD 6000 Pro с контекстом 262K токенов. Оптимизация производительности, бенчмарки и решение проблем.
Оптимизация vLLM: как обслуживать Qwen 3.5 в Thinking и Non-Thinking режимах без двойной загрузки в VRAM
Гайд по обслуживанию Qwen 3.5 в двух режимах через один экземпляр vLLM. Экономим видеопамять на 50% с помощью chat template kwargs.
DIY голосовой ассистент на Rockchip: решаем проблему нормализации текста для TTS (омонимы, числа, сокращения)
Практическое руководство по реализации нормализации текста для синтеза речи в голосовом ассистенте на платформе Rockchip. Решаем проблемы омонимов, чисел и сокр
Контекстный TTS для локального запуска: архитектура, требования к железу и методы оценки
Полное руководство по контекстному TTS для локального запуска. Архитектура на 520M параметров, требования к VRAM, методы оценки качества речи. Актуально на февр
Qwen3.5 в production: личный опыт использования для разработки на JavaScript, Go и Rust
Личный опыт развертывания Qwen3.5 для генерации кода в продакшене. Метрики, квантование, интеграция с JavaScript, Go и Rust проектами. Сравнение с Claude.
Qwen3.5 35B на видеокарте 16 ГБ: настройка для 45 токенов/с и контекста 128K
Детальное руководство по запуску Qwen3.5 35B на видеокарте с 16 ГБ VRAM. Настройка LM Studio и llama.cpp для скорости 45 токенов/с и контекста 128K. Актуально н
Провал квантования: почему GGUF-версии Minimax M2.5 работают плохо и как этого избежать
Почему квантованные Minimax M2.5 модели выдают бессмыслицу. Сравнение уровней квантования Q1-Q4 на H200. Пошаговое руководство по правильному квантованию для ст
Уязвимость LLM к невидимым Unicode-символам: тестирование обратной CAPTCHA и методы защиты
Как невидимые Unicode-символы взламывают LLM-агентов. Практическое руководство по тестированию обратной CAPTCHA и методам защиты на 2026 год.
GRPO с нуля: полное руководство по реализации, ablation studies и оптимизация памяти на RTX 4090
Пошаговое руководство по реализации GRPO с нуля, ablation studies и оптимизации памяти для RTX 4090. Используем Qwen2.5-Math-1.5B и reinforcement learning.
Как настроить Qwen 14B для победы над GPT-4o: дистилляция знаний на примере головоломок NYT Connections
Пошаговый гайд по тонкой настройке Qwen 14B через дистилляцию от Claude 4.5 Sonnet с QLoRA. Как открытая модель побеждает GPT-4o в нишевой задаче.