Учебные материалы
Опыт квантования Qwen3.5-122B: почему модели >100B параметров не стоит квантить ниже Q4
Почему модели более 100B параметров не стоит квантить ниже Q4: опыт, тесты и альтернативы для экономии VRAM без потери качества.
Собираем локальный ассистент для заметок с транскрипцией и суммаризацией на базе open-source LLM
Полный гайд по сборке приватного ассистента для заметок на базе Whisper 3.1 и Llama 4. Установка, код, оптимизация. Работает оффлайн.
Google AI Ultra для мульти-агентных систем: параллельные воркеры и кросс-модельный консенсус
Полный гайд по использованию Google AI Ultra в мульти-агентных системах. Параллельные воркеры, кросс-модельный консенсус, оптимизация затрат. Инструменты Antigr
Локальные LLM для продакшена: Qwen 3.5 122B vs GPT-oss-120B и Mac M5 128GB для кодинга в 2025
Практическое сравнение локальных LLM Qwen 3.5 122B и GPT-oss-120B для продакшен-кодинга. Разбираем выбор Mac M5 128GB, квантование, скорость и настройку для раб
Как поднять успешность function calling с 6.75% до 100%: методология для qwen3-coder-next (разбор презентации)
Разбор презентации Qwen Korea Meetup: как поднять успешность вызова функций с 6.75% до 100% для qwen3-coder-next. Пошаговая методология.
Рейтинг 14 embedding-моделей для тайского языка: результаты MTEB-тестов и выбор оптимальной
Актуальный рейтинг 14 embedding-моделей для тайского на основе MTEB. Сравнение Qwen3-Embedding, E5, BGE. Выбор по качеству, размеру и скорости.
Сборка Physical AI-конвейера на ROS2 и LeRobot за 30 тыс. рублей: end-to-end imitation learning на манипуляторе SO-101
Практический гайд по сборке end-to-end конвейера imitation learning на манипуляторе SO-101 с ROS2 и LeRobot v0.7.2. Бюджетное решение для реальной робототехники
Как исправить 'overthinking' в Qwen3.5: настройка reasoning-budget в llama.cpp и других движках
Гайд по борьбе с бесконечными размышлениями Qwen3.5. Настройка reasoning-budget в llama.cpp, vLLM и LM Studio для оптимизации токенов и скорости без потери каче
Создание голосовых NPC с памятью в Unity: полный стек (Ollama, Whisper, edge-tts, Generative Agents)
Пошаговое руководство по созданию NPC с голосом и памятью в Unity с использованием Ollama, Whisper и edge-tts. Локальный ИИ для игр.
Мультимодальный RAG с Gemini Embedding 2: туториал по работе с видео и изображениями
Пошаговый гайд по созданию мультимодального RAG с Gemini Embedding 2. Ищем по видео и картинкам в едином векторном пространстве. Код на Python и Supabase.
Победа в хакатоне PyTorch: как оптимизировать GPU kernel для инференса LLM — разбор техник из первых рук
Полный разбор оптимизаций GPU kernel для ускорения инференса LLM: KV caching, fusion, Gated DeltaNet. Практические техники из хакатона PyTorch на примере NVIDIA
Практическое руководство: как собрать локальный AI-агент для iPhone с llama.cpp и Metal
Пошаговое руководство по созданию локального AI-агента для iPhone с использованием llama.cpp и Metal. Выбор модели, квантование, tool calling и оптимизация под