Парадокс WebLLM: чем мощнее железо, тем меньше оно нужно

2025 год. У вас ноутбук с RTX 3050 на 4GB VRAM. Вы читаете про Phi-3.5 Mini с 3.8B параметров и думаете: "Ну наконец-то, модель для слабых систем!" Запускаете в браузере через WebLLM — и получаете Out of Memory после загрузки первых слоев. Знакомо?

Вот в чем подвох: браузерный инференс — это не просто локальный запуск модели. Это отдельная вселенная со своими правилами. WebGPU, WASM, ограничения безопасности браузера. И главное — здесь нельзя просто взять и "подкачать" память из оперативки. Когда VRAM заканчивается, всё.

Ключевой момент, который все упускают: в WebLLM память расходуется не только на веса модели. Добавьте сюда KV cache для контекста, промежуточные активации, буферы WebGPU. На 4GB реально работает только то, что занимает 2.5-3GB в чистом виде.

Почему Phi-3.5 Mini не так "мини", как кажется

Microsoft выпустила Phi-3.5 Mini в 2024 как "самую эффективную модель своего класса". 3.8B параметров, контекст 128K, качество на уровне 7B-моделей. Звучит идеально для 4GB карт. Но давайте посмотрим на реальные цифры.

Модель	Параметры	FP16 размер	Реальный VRAM в WebLLM	Влезает в 4GB?
Phi-3.5 Mini	3.8B	7.6 GB	~4.2 GB	Нет
Phi-3 Mini (4K)	3.8B	7.6 GB	~4.0 GB	На грани
Qwen2.5-Coder 1.5B	1.5B	3.0 GB	~2.1 GB	Да
Gemma 2 2B	2B	4.0 GB	~2.8 GB	Да

Видите проблему? Phi-3.5 Mini в FP16 весит 7.6GB. Да, WebLLM использует квантование (обычно 4-bit), но даже после этого — около 4GB чистых весов. Плюс накладные расходы. Итог: модель не влезает или работает на пределе, с постоянными дропами кадров и лагами.

Квантование в WebLLM: магия, которая не всегда работает

WebLLM по умолчанию использует 4-bit квантование (точнее, формат NF4 или GPTQ). Казалось бы, Phi-3.5 Mini после квантования должна занимать ~2GB. Но нет. Вот что происходит на самом деле:

Модель загружается в FP16, потом квантуется "на лету"
Для квантования нужны дополнительные буферы в памяти
WebGPU требует выравнивания данных, что увеличивает объем
KV cache для 128K контекста — это отдельные 1-2GB

В нашей предыдущей статье о реальных потребностях VRAM мы подробно разбирали этот феномен: теоретические расчеты почти всегда расходятся с практикой на 30-50%.

💡

Самый болезненный момент: когда вы запускаете Phi-3.5 Mini в браузере, вы фактически теряете её главное преимущество — длинный контекст. Потому что для 128K нужно сокращать batch size до 1 и выключать параллельную обработку. А зачем тогда нужна модель с длинным контекстом, если её нельзя использовать?

Альтернатива: маленькие, но злые модели

Что делать, если Phi-3.5 не влезает? Смотреть в сторону действительно маленьких моделей. Не тех, что "маленькие для своего класса", а тех, что созданы для embedded-систем и мобилок.

1 Qwen2.5-Coder 1.5B: программист в кармане

Модель от Alibaba с фокусом на код. Всего 1.5B параметров, но поддерживает 32K контекст. В WebLLM занимает около 2.1GB с запасом. Скорость генерации — 15-20 токенов в секунду на RTX 3050. Это в 2-3 раза быстрее, чем Phi-3.5 на грани падения.

Где использовать: генерация простого кода, рефакторинг, объяснение сниппетов. Не ждите от неё написания целого приложения, но для помощника в IDE — идеально.

2 Gemma 2 2B: универсальный солдат

Google специально создавала Gemma 2 для edge-устройств. 2B версия — это баланс между размером и качеством. Занимает ~2.8GB в WebLLM, оставляя место для RAG-цепочки.

Что важно: у Gemma 2 отличная поддержка в WebLLM. Автоматические оптимизации, предзагруженные веса, быстрая компиляция шейдеров. Если Phi-3.5 грузится 30 секунд, Gemma 2 — 10-15.

3 TinyLlama 1.1B: экстремальный минимум

Когда каждый мегабайт на счету. TinyLlama занимает всего ~1.5GB в WebLLM. Качество, конечно, страдает, но для простых чат-ботов и классификации текста работает. Главное преимущество — можно запустить две такие модели параллельно.

Ошибка новичка: пытаться запустить Phi-3.5 любой ценой. Они тратят часы на оптимизацию, уменьшают контекст до 2K, отключают кэш — и получают модель, которая работает хуже, чем Gemma 2 из коробки. Иногда лучшее — враг хорошего.

RAG в браузере: эмбеддинг-модели на 4GB

Самое интересное начинается, когда вы хотите сделать полноценный RAG (Retrieval-Augmented Generation) в браузере. Вам нужны две модели: одна для эмбеддингов (поиск похожих документов), вторая — LLM для генерации ответа.

BGE-small-en-v1.5 — стандартный выбор для эмбеддингов. 109M параметров, занимает ~400MB. Но есть нюанс: в WebLLM эта модель требует дополнительных ~300MB на preprocessing и буферы. Итого ~700MB. Плюс основная LLM. И вот уже ваш бюджет 4GB тает на глазах.

Альтернативы:

GTE-Tiny (33M параметров) — занимает всего 150MB, качество на 85% от BGE-small
E5-small-v2 — оптимизирована specifically для edge-устройств
Или вообще отказаться от отдельной модели и использовать встроенные эмбеддинги в Qwen2.5-Coder

В нашем руководстве по работе с 4GB VRAM мы подробно разбирали стратегии распределения памяти между несколькими моделями.

Практика: настройка WebLLM для выживания на 4GB

Допустим, вы всё-таки хотите попробовать Phi-3.5 Mini. Вот как выжать из неё максимум на ограниченной памяти.

// Инициализация WebLLM с агрессивной оптимизацией
const engine = await mlc.createWebWorkerEngine(
  {
    model: "Phi-3.5-mini-4k-instruct-q4f16_1-MLC",
    // Критически важные настройки для 4GB:
    kvCachePageSize: 16,           // Уменьшаем размер страницы кэша
    maxSequenceLength: 2048,       // Не пытайтесь ставить 128K!
    prefillChunkSize: 512,         // Обрабатываем контекст по частям
    slidingWindowSize: 1024,       // Используем sliding window attention
    // Оптимизации памяти:
    enableTensorCircularBuffer: true, // Переиспользование буферов
    enablePageAttention: true,     // Экономия на KV cache
    // Формат весов:
    quantization: "q4f16_1",       // 4-bit с FP16 активациями
  },
  {
    // Лимиты WebGPU:
    requiredFeatures: ["shader-f16"],
    devicePreference: "discrete-gpu",
    powerPreference: "high-performance",
  }
);

Что это дает:

kvCachePageSize: 16 — уменьшает фрагментацию памяти в куче WebGPU
maxSequenceLength: 2048 — жестко, но реалистично. 128K сожрет всю память
prefillChunkSize: 512 — обрабатываем промпт кусками, а не целиком
slidingWindowSize: 1024 — внимание только к последним 1024 токенам

Да, вы теряете длинный контекст. Да, генерация будет медленнее. Но модель хотя бы запустится.

Сравнительный тест: что выбрать для реальных задач

Я протестировал три сценария на RTX 3050 4GB:

Задача	Phi-3.5 Mini (оптимизированная)	Gemma 2 2B	Qwen2.5-Coder 1.5B
Чат-бот (1K контекст)	5-7 токенов/с, лаги	12-15 токенов/с, плавно	18-22 токенов/с, быстро
RAG (эмбеддинг + генерация)	Не влезает	Работает, 8 токенов/с	Работает, 14 токенов/с
Генерация кода	Качественно, но медленно	Хорошо, средняя скорость	Отлично, быстро
Потребление VRAM	3.8-4.1 GB (на грани)	2.6-2.9 GB	2.0-2.3 GB

Выводы очевидны: на 4GB Phi-3.5 Mini — это роскошь, которую вы не можете себе позволить. Gemma 2 2B — золотая середина. Qwen2.5-Coder 1.5B — максимальная производительность ценой некоторой потери качества.

Будущее: что нас ждет в 2026?

К концу 2025 ситуация начала меняться. Microsoft анонсировала Phi-4 Nano — модель специально для edge-устройств с 1.2B параметрами и тем же качеством, что у Phi-3.5 Mini. Google работает над Gemma 3 с улучшенной компрессией весов. В WebLLM появляется поддержка 2-bit квантования.

Мой прогноз: к середине 2026 мы увидим модели уровня Phi-3.5 Mini, которые будут работать на 2GB VRAM. Пока же — выбирайте практичность над престижем. Лучше быстрая Gemma 2, чем лагающая Phi-3.5.

P.S. Если у вас всё-таки есть 6-8GB VRAM, ситуация кардинально меняется. В нашем гайде по 10GB системам мы рассматриваем более мощные конфигурации, где Phi-3.5 уже имеет смысл.

4GB VRAM в браузере: Phi-3.5 против карликов. Кто выживет в WebLLM?