Учебные материалы
Пишем inference engine на чистом C: разбор кода и бенчмарки для LFM2-350M
Пошаговое руководство по созданию легкого inference engine на чистом C для модели LFM2-350M. Разбор реализации RoPE, оптимизаций CBLAS и сравнение производитель
Exogram: как создать агента с "процедурной памятью", который выживает после любого редизайна сайта
Пошаговый гайд по созданию AI-агента с процедурной памятью, который переживает изменения UI. Используем workflow-use, browser-use, DeepSeek-V3 и LangChain.
Ошибка распределения VRAM: почему Llama Server на Ryzen + RTX не видит всю память и как это исправить
Почему Llama Server не использует всю VRAM на гибридной системе Ryzen+RTX и как заставить его видеть все 16ГБ. Пошаговое решение проблемы Windows GPU.
Вайбкодинг на практике: как с помощью ИИ создать сайт-резюме в стиле Fallout 2 (разбор кейса)
Разбор реального кейса: как с помощью GPT-4.5 и Midjourney v7 создать креативное резюме-сайт в стиле Fallout 2. Промпты, код, трудности и решения.
TTFT под 100ms на Raspberry Pi 5: Как заставить локальный TTS летать с Hailo-10H
Практическое руководство по снижению TTFT до 100ms для локального TTS/STT на Raspberry Pi 5 с Hailo-10H. Реальные тесты Llama и Qwen, код оптимизации.
Терминал, который слушает: голосовой ассистент на Whisper и Claude Code CLI за 100 строк кода
Полный туториал по созданию приватного голосового управления терминалом на локальных моделях. Код менее 100 строк, полная офлайн-работа.
Fine-tuning или промпты? Как заставить локальную LLM генерировать regex и забыть про дорогое дообучение
Практический кейс замены fine-tuning через промпт-инжиниринг для генерации регулярных выражений из логов Wazuh. Экономит сотни часов работы.
Построение агентных систем с нуля: туториал на Org-mode от линейных цепочек до графового управления
Пошаговый туториал по созданию AI-агентов с нуля на Org-mode. Литературное программирование, графовое управление, MedMCQA датасет. Код и примеры для 2026 года.
Анализ сна ребёнка на Python: от таблицы до инсайтов с DeepSeek
Пошаговый гайд по анализу данных о сне ребёнка с помощью Python, Pandas, Matplotlib и DeepSeek-V3.2. Код, визуализации, практические инсайты.
Reasoning On/Off: когда отключать мышление у моделей и не платить за это качеством
Сравнительный анализ производительности с включенным и отключенным reasoning на реальных бенчмарках. Практическое руководство по оптимизации.
Как выбрать локальную LLM: объективное сравнение GPT-OSS, Qwen и Step 3.5 Flash без хайпа
Объективный разбор трёх топовых локальных LLM на 2026 год: реальные компромиссы, производительность на разных железах и практические рекомендации.
Prompt Caching в llama.cpp: почему не работает и как настроить кэширование промптов
Глубокий гайд по настройке prompt caching в llama.cpp. Почему не работает кэширование промптов, как настроить --cache-prompt и --lookup-cache-dynamic для ускоре