Кто вообще заметил, что Microsoft выпустила эти модели?

Пока все обсуждали гигантские MoE на 120 миллиардов параметров, Microsoft тихо выкатила Phi-mini-MoE и Phi-tiny-MoE. Никакого анонса, никакого хайпа – просто залили на Hugging Face. И это гениально. Потому что эти модели созданы для одного: работать там, где другие даже не запустятся. На вашем старом ноутбуке. С 8 гигабайтами ОЗУ. Без видеокарты.

💡

На 20 марта 2026 года эти модели остаются самыми легковесными и эффективными MoE-архитектурами от Microsoft, специально заточенными под CPU. Новых версий с тем же целевым назначением не выходило.

Почему MoE – это магия для бедных

Вместо одной огромной нейросети Mixture of Experts использует кучу маленьких «экспертов». Задача приходит – активируется только пара из них. Остальные спят и не жрут память. Для ноутбука с 8 ГБ ОЗУ это не удобство, а вопрос жизни и смерти. Подробнее о принципе работы можно почитать в нашем материале про MoLE архитектуры.

Не путайте с большими MoE вроде GPT-OSS 120B. Там другой масштаб и требования. Наша цель – выжить на слабом железе, а не ставить рекорды.

1Где копать: находим сокровища на Hugging Face

Идем на Hugging Face. Ищем «microsoft/phi-mini-moe» или «microsoft/phi-tiny-moe». На 2026 год они все еще там, в разделе моделей. Прямой ссылки не даю – вас должно занести в поиске. Если не нашли – проверьте, не опечатались. Это первый фильтр на внимательность.

На странице модели смотрите на размеры. Оригинал в формате PyTorch весит несколько гигабайт. Нам это не подходит. Нам нужен GGUF – сжатый и квантованный формат, который жрет в разы меньше памяти. Если готового GGUF нет (а его часто нет), придется конвертировать самим. Звучит страшно, но это один раз.

2Волшебное превращение: конвертируем в GGUF

Берете llama.cpp (актуальную версию на 2026 года). Качаете исходники, собираете. Или берете готовый бинарник, если не хотите танцев с компиляцией.

Скачиваете модель с Hugging Face. Конвертация одной командой. Выглядит она так:

python convert.py \
  --outfile phi-mini-moe.Q4_K_M.gguf \
  --outtype q4_k_m \
  microsoft/phi-mini-moe

Здесь `q4_k_m` – это степень квантования. Чем больше цифра, тем меньше точность, но и меньше вес. Для 8 ГБ ОЗУ Q4_K_M – оптимально. Хотите поэкспериментировать с балансом – смотрите сравнение маленьких LLM.

Конвертация на слабом ноутбуке может занять время. Не паникуйте, если процесс завис на полчаса – это норма. Лучше запустить на ночь.

3Точка входа: запускаем через LM Studio

Теперь берем LM Studio (актуальная версия на 2026 год). Устанавливаем. Интерфейс похож на чат, но нам нужна вкладка с моделями.

Загружаем наш свежеиспеченный GGUF-файл. В настройках запуска важно выставить правильное количество потоков CPU. Обычно это все доступные ядра. И обязательно ограничьте потребление ОЗУ. В LM Studio есть ползунок «Max RAM to use». Выставляйте 6000-7000 МБ. Оставьте немного системе, иначе она вас убьет.

Запускаете модель. Первая загрузка будет долгой – модель распаковывается в оперативку. Ждете.

А что, если LM Studio не запускается?

Бывает. Особенно на старых системах. Альтернатива – Ollama или CLI-интерфейс llama.cpp. Но с ними нужно возиться больше. LM Studio – это путь наименьшего сопротивления для тех, кто хочет просто поговорить с моделью.

Если хочется веб-интерфейс, как у ChatGPT, можно попробовать Open WebUI. Но это уже дополнительные настройки и потребление памяти. На 8 ГБ – на грани фола.

На что она способна? Реальные примеры

Phi-mini-MoE – не GPT-4. Не ждите философских трактатов. Ее сила – в скорости и адекватности на простых задачах.

Напиши код функции сложения на Python. – Выдаст корректный, простой код без лишних комментариев.
Объясни квантовую запутанность тремя предложениями. – Даст сжатое, понятное объяснение.
Придумай пять идей для поста в блог про локальный AI. – Сгенерирует список, иногда с повторениями.

То есть, это идеальный помощник для рутинных задач: написать шаблонный email, пофиксить простой баг в коде, сгенерировать контент-план. Для чего-то сложнее, вроде анализа юридических документов, она не годится.

Сравниваем с альтернативами: стоит ли овчинка выделки?

Модель	Параметры (примерно)	Требования ОЗУ (GGUF, Q4)	Сильная сторона
Phi-tiny-MoE	~500M	< 2 ГБ	Скорость, минимальные требования
Phi-mini-MoE	~1.5B	3-4 ГБ	Баланс скорости и качества
Llama 3.2 3B	3B	~3.5 ГБ	Известное качество, сообщество
Gemma 2 2B	2B	~2.5 ГБ	Инструктивное следование

Выбор простой. Если у вас ровно 8 ГБ и вы хотите, чтобы система дышала – берите Phi-tiny-MoE. Если можете выделить 4-5 ГБ под модель и хотите чуть более умные ответы – Phi-mini-MoE. Классические плотные модели вроде Llama будут чуть медленнее при схожем качестве, потому что не используют преимущества MoE на CPU.

Кому это реально нужно?

Студенту с древним ноутбуком, который хочет помощника для учебы без доступа к облаку. Разработчику, тестирующему интеграции с AI на локальной машине. Энтузиасту, которому надоело, что все туториалы начинаются с «возьмите RTX 4090». Всем, кто хочет понять, как работают MoE, без инвестиций в железо.

Это не инструмент для продакшена. Это доказательство концепции, что мощный AI может быть демократичным. Пока другие гонятся за параметрами, Microsoft показала, что можно делать больше с меньшим. И это, пожалуй, главный тренд 2026 года, который все пропустили.

Дальше? Экспериментируйте. Попробуйте запустить две модели сразу. Или подключите простенький RAG поверх Phi-mini-MoE. Возможности ограничены только вашей оперативкой. И, может быть, терпением.

Подписаться на канал

Секретные MoE-модели Microsoft: запускаем Phi-mini-MoE на ноутбуке с 8 ГБ ОЗУ