Гайды по AI и нейросетям

Manual #863 7 min

PyTorch в Core ML за 30 минут: запускаем SOTA OCR на Neural Engine без облаков

Пошаговый гайд по конвертации PyTorch моделей в Core ML для запуска SOTA OCR на Neural Engine Apple. Энергоэффективность, скорость, локальное выполнение.

Открыть документ

Manual #862 10 min

Токенизаторы в Transformers v5: ломаем чёрный ящик и собираем свой

Полное руководство по архитектуре токенизаторов в Transformers v5. Учимся разделять backend и словарь, обучаем свои токенизаторы для специфичных задач.

Открыть документ

Manual #861 7 min

Мультимодальный RAG с Llama Nemotron: как искать в документах с картинками, таблицами и схемами

Пошаговый гайд по настройке мультимодального RAG с Llama Nemotron для поиска в визуальных документах. Архитектура, эмбеддинги, векторные базы и практические при

Открыть документ

Manual #858 7 min

llama.cpp vs Ollama: почему одна модель генерирует код в 1.7 раза медленнее

Детальный разбор причин 70% разницы в скорости генерации кода на Qwen-3 Coder 32B между llama.cpp и Ollama. CUDA ядра, оптимизации, практические настройки.

Открыть документ

Manual #857 9 min

Claude 3 как автономный тренер моделей: загрузка данных, запуск GPU и залив на Hugging Face без вашего участия

Как настроить Claude 3 для полного цикла обучения LLM: выбор железа, подготовка данных, запуск обучения на облачных GPU и публикация на Hugging Face Hub.

Открыть документ

Manual #855 9 min

Ускорение Qwen3-8B агента в 1.4 раза на Intel Core Ultra: спекулятивное декодирование и прунинг draft-модели

Практическое руководство по ускорению Qwen3-8B агента в 1.4 раза на Intel Core Ultra через спекулятивное декодирование и прунинг draft-модели с OpenVINO GenAI

Открыть документ

Manual #854 8 min

Как ускорить семантический поиск в 20 раз: бинарный индекс + int8 рескор на CPU

Практическое руководство по ускорению семантического поиска в 20 раз на CPU с помощью бинарных индексов Faiss и int8 квантования рескор моделей. Экономия памяти

Открыть документ

Manual #853 7 min

CUDA illegal instruction в llama.cpp на RTX 5060 Ti: почему новая карта ломает старый код и как это исправить

Полное руководство по диагностике и исправлению ошибки CUDA illegal instruction при запуске llama.cpp на видеокартах NVIDIA RTX 5060 Ti. Обновление драйверов, к

Открыть документ

Manual #852 7 min

Qwen3-30B на Raspberry Pi 5: ShapeLearn GGUF или MagicQuant? Выбираем квантование, которое не превратит модель в овощ

ShapeLearn GGUF против MagicQuant: тесты производительности на Raspberry Pi 5, 8.03 TPS и выбор оптимального квантования для 30B-моделей.

Открыть документ

Manual #809 11 min

PMR: Методология, которая заставит ИИ думать как взрослый, а не гадать как гадалка

Probabilistic Multi-Variant Reasoning - практический паттерн для работы с LLM. Как получать от ИИ не один ответ, а взвешенные варианты с оценкой рисков и сценар

Открыть документ

Manual #805 8 min

Federated Learning в кредитном скоринге: как решить парадокс приватности, справедливости и точности модели

Практическое руководство по внедрению Federated Learning в кредитный скоринг с дифференциальной приватностью и проверкой справедливости ECOA. Реальный кейс на 5

Открыть документ

Manual #799 7 min

Математика для чайников: как языковые модели решают задачи, не понимая их

Глубокий разбор: языковые модели не вычисляют, а предсказывают. Почему ИИ ошибается в простой арифметике и как это связано с токенизацией чисел.

Открыть документ

Учебные материалы

PyTorch в Core ML за 30 минут: запускаем SOTA OCR на Neural Engine без облаков

Токенизаторы в Transformers v5: ломаем чёрный ящик и собираем свой

Мультимодальный RAG с Llama Nemotron: как искать в документах с картинками, таблицами и схемами

llama.cpp vs Ollama: почему одна модель генерирует код в 1.7 раза медленнее

Claude 3 как автономный тренер моделей: загрузка данных, запуск GPU и залив на Hugging Face без вашего участия

Ускорение Qwen3-8B агента в 1.4 раза на Intel Core Ultra: спекулятивное декодирование и прунинг draft-модели

Как ускорить семантический поиск в 20 раз: бинарный индекс + int8 рескор на CPU

CUDA illegal instruction в llama.cpp на RTX 5060 Ti: почему новая карта ломает старый код и как это исправить

Qwen3-30B на Raspberry Pi 5: ShapeLearn GGUF или MagicQuant? Выбираем квантование, которое не превратит модель в овощ

PMR: Методология, которая заставит ИИ думать как взрослый, а не гадать как гадалка

Federated Learning в кредитном скоринге: как решить парадокс приватности, справедливости и точности модели

Математика для чайников: как языковые модели решают задачи, не понимая их