Гайды по AI и нейросетям

Manual #4062 6 min

Как фрейминг системного промпта меняет энтропию генерации: исследование на 3830 запусков

Как формулировка системного промпта радикально меняет распределение вероятностей в LLM. 3830 запусков, метрики энтропии для Mistral-7B и Mamba, открытый код.

Открыть документ

Manual #4061 8 min

Почему Qwen 3.5 стал прорывом для локального AI-ассистента в коде: туториал по установке и тест против конкурентов

Полное руководство по установке Qwen 3.5 для локального coding assistant. Сравнение с Claude, DeepSeek и другими. Тесты производительности и автономной работы.

Открыть документ

Manual #4058 7 min

Тестирование Qwen3.5-122B-A10B-i1-GGUF на AMD 6000 Pro: как добиться 262K контекста и высокой скорости

Пошаговый гайд по запуску Qwen3.5-122B-A10B-i1-GGUF на AMD 6000 Pro с контекстом 262K токенов. Оптимизация производительности, бенчмарки и решение проблем.

Открыть документ

Manual #4046 7 min

Оптимизация vLLM: как обслуживать Qwen 3.5 в Thinking и Non-Thinking режимах без двойной загрузки в VRAM

Гайд по обслуживанию Qwen 3.5 в двух режимах через один экземпляр vLLM. Экономим видеопамять на 50% с помощью chat template kwargs.

Открыть документ

Manual #4042 8 min

DIY голосовой ассистент на Rockchip: решаем проблему нормализации текста для TTS (омонимы, числа, сокращения)

Практическое руководство по реализации нормализации текста для синтеза речи в голосовом ассистенте на платформе Rockchip. Решаем проблемы омонимов, чисел и сокр

Открыть документ

Manual #4041 8 min

Контекстный TTS для локального запуска: архитектура, требования к железу и методы оценки

Полное руководство по контекстному TTS для локального запуска. Архитектура на 520M параметров, требования к VRAM, методы оценки качества речи. Актуально на февр

Открыть документ

Manual #4040 7 min

Qwen3.5 в production: личный опыт использования для разработки на JavaScript, Go и Rust

Личный опыт развертывания Qwen3.5 для генерации кода в продакшене. Метрики, квантование, интеграция с JavaScript, Go и Rust проектами. Сравнение с Claude.

Открыть документ

Manual #4039 7 min

Qwen3.5 35B на видеокарте 16 ГБ: настройка для 45 токенов/с и контекста 128K

Детальное руководство по запуску Qwen3.5 35B на видеокарте с 16 ГБ VRAM. Настройка LM Studio и llama.cpp для скорости 45 токенов/с и контекста 128K. Актуально н

Открыть документ

Manual #4036 6 min

Провал квантования: почему GGUF-версии Minimax M2.5 работают плохо и как этого избежать

Почему квантованные Minimax M2.5 модели выдают бессмыслицу. Сравнение уровней квантования Q1-Q4 на H200. Пошаговое руководство по правильному квантованию для ст

Открыть документ

Manual #4028 5 min

Уязвимость LLM к невидимым Unicode-символам: тестирование обратной CAPTCHA и методы защиты

Как невидимые Unicode-символы взламывают LLM-агентов. Практическое руководство по тестированию обратной CAPTCHA и методам защиты на 2026 год.

Открыть документ

Manual #4024 9 min

GRPO с нуля: полное руководство по реализации, ablation studies и оптимизация памяти на RTX 4090

Пошаговое руководство по реализации GRPO с нуля, ablation studies и оптимизации памяти для RTX 4090. Используем Qwen2.5-Math-1.5B и reinforcement learning.

Открыть документ

Manual #4022 10 min

Как настроить Qwen 14B для победы над GPT-4o: дистилляция знаний на примере головоломок NYT Connections

Пошаговый гайд по тонкой настройке Qwen 14B через дистилляцию от Claude 4.5 Sonnet с QLoRA. Как открытая модель побеждает GPT-4o в нишевой задаче.

Открыть документ

Учебные материалы

Как фрейминг системного промпта меняет энтропию генерации: исследование на 3830 запусков

Почему Qwen 3.5 стал прорывом для локального AI-ассистента в коде: туториал по установке и тест против конкурентов

Тестирование Qwen3.5-122B-A10B-i1-GGUF на AMD 6000 Pro: как добиться 262K контекста и высокой скорости

Оптимизация vLLM: как обслуживать Qwen 3.5 в Thinking и Non-Thinking режимах без двойной загрузки в VRAM

DIY голосовой ассистент на Rockchip: решаем проблему нормализации текста для TTS (омонимы, числа, сокращения)

Контекстный TTS для локального запуска: архитектура, требования к железу и методы оценки

Qwen3.5 в production: личный опыт использования для разработки на JavaScript, Go и Rust

Qwen3.5 35B на видеокарте 16 ГБ: настройка для 45 токенов/с и контекста 128K

Провал квантования: почему GGUF-версии Minimax M2.5 работают плохо и как этого избежать

Уязвимость LLM к невидимым Unicode-символам: тестирование обратной CAPTCHA и методы защиты

GRPO с нуля: полное руководство по реализации, ablation studies и оптимизация памяти на RTX 4090

Как настроить Qwen 14B для победы над GPT-4o: дистилляция знаний на примере головоломок NYT Connections