Учебные материалы
Сжимаем Llama 8B до 2.5 ГБ: Экстремальный гайд для Jetson Orin Nano
Практический гайд по запуску 8-миллиардной модели Llama на Jetson Orin Nano с всего 2.5 ГБ памяти. Квантование, оптимизация, ошибки и реальные показатели.
Тепловое троттлинг на MacBook M5 Max: сравнение 14” и 16” для непрерывного вывода 72B моделей
Реальные тесты теплового троттлинга на MacBook M5 Max 14” и 16” при непрерывном выводе Qwen 2.5 72B. Сравнение температуры, скорости генерации и практические ре
Архитектура AI-фабрики: как собрать команду из 9 агентов на open-source моделях с одной видеокартой — конфиги, модели, бенчмарки
Практический гайд: собираем команду из 9 AI-агентов на open-source моделях с одной RTX 4090. Конкретные модели для каждой роли, настройки VRAM, бенчмарки HumanE
SLAY-ASR: практическое руководство по добавлению аудиомодальности в LLM с минимальными затратами (рецепт на полгода)
Пошаговое руководство по кодированию аудио в латентные представления для LLM. Альтернатива Whisper, кросс-аттеншн, практические советы на 2026 год.
Ловушка Langfuse: как SDK по умолчанию перехватывает чужие трейсы и накручивает счёт — инструкция по отключению
Подробное руководство по отключению скрытого перехвата всех трейсов в Langfuse SDK. Узнайте, как избежать неожиданных расходов и настроить фильтрацию.
Правда о скорости MLX на Mac: почему бенчмарки в UI врут и как измерить реальную производительность
Разоблачаем мифы о производительности MLX. Как измерить реальные tokens/s на Apple Silicon. Сравнение prefill и generation time на M1 Max и M5.
Автоматизируем аналитику без дашбордов: как построить MCP-сервер для вашего AI-агента
Практический гайд по созданию MCP-сервера для доступа AI-агента к данным аналитики. Автоматизируйте запросы к Mixpanel/GA4 без дашбордов. Работает с Claude, Cur
Как настроить агентное кодирование на слабой видеокарте: практический гайд по Qwen3.5-9B
Полная инструкция по запуску Qwen3.5-9B для автономного кодирования на RTX 3060 12GB. Квантование через Unsloth, настройка tool calls и оптимизация памяти.
Как дообучить NVIDIA Nemotron Speech ASR на Amazon EC2: полный гайд по адаптации под домен
Пошаговое руководство по тонкой настройке NVIDIA Nemotron Speech ASR на Amazon EC2 p4d с DeepSpeed. Адаптация модели под доменные данные.
Практическое руководство по multi-label классификации изображений для встраиваемых устройств
Пошаговое руководство по созданию multi-label классификатора изображений для встраиваемых устройств. Сбор датасета, разметка, выбор модели, оптимизация и деплой
Собираем локальный голосовой ввод на Python: Whisper + Ollama для Windows, macOS и Linux
Полный гайд по сборке системы голосового ввода без интернета. Используем Whisper для транскрипции и Ollama для обработки текста на Windows, macOS и Linux. Готов
Квантование и Matryoshka Embeddings: как сократить расходы на векторные базы данных на 80%
Практическое руководство по квантованию и Matryoshka Representation Learning для уменьшения размера эмбеддингов. Расчёт экономии памяти и стоимости. Примеры код