Вы скачали свежую Llama 3.4 70B с HuggingFace, запускаете ее на своем RTX 4090 и ждете ответа три минуты. Проблема не в железе. Проблема в формате модели. Сегодня выбор правильного формата квантования важнее, чем выбор самой модели.

В 2026 году запускать LLM на своем железе может каждый. Но скорость и качество ответов зависят от того, как модель упакована. GGUF, AWQ и EXL2 — это три кита, на которых держится локальный инференс. Они решают одну задачу (сжать модель без потери качества), но делают это настолько по-разному, что ваш выбор определит, будет ли модель летать или ползти.

Зачем вообще эти форматы? (Проблема, которую они решают)

Оригинальная модель Llama 3.4 70B в формате FP16 весит 140 ГБ. Чтобы ее запустить, нужно 140 ГБ видеопамяти. Даже у самого прокачанного сервера такого нет. Квантование — это искусство уменьшать вес модели, жертвуя минимальной точностью. Но как именно жертвовать — вот где начинается магия.

Забудьте про "просто скачать модель". В 2026 году одна и та же модель в разных форматах может отличаться по скорости в 5 раз при одинаковом качестве ответов. Выбор формата — это первый и самый важный шаг.

GGUF: универсальный солдат для CPU и скромных GPU

GGUF (GPT-Generated Unified Format) — наследник GGML, созданный специально для llama.cpp. Если у вас нет мощной видеокарты или вы хотите запускать модели на сервере с кучей оперативки, это ваш выбор.

Как работает: GGUF квантует модель до 2, 3, 4, 5, 6 или 8 бит на вес. Самое популярное — Q4_K_M (4 бита, средняя точность). Но в 2026 появились и более агрессивные варианты, вроде IQ2_XS для сверхсильного сжатия. Магия в том, что GGUF хранит не только квантованные веса, но и всю метаинформацию о модели в одном файле. Больше никаких дополнительных config.json.

Плюсы GGUF:

Невероятная экономия памяти: Llama 3.4 70B в Q4_K_M весит ~40 ГБ и запускается на 64 ГБ ОЗУ без видеокарты.
Кросс-платформенность: Работает на чем угодно — x86, ARM, даже на Raspberry Pi. Поддержка CPU-инференса через AVX2/AVX-512.
Один файл: Вся модель в одном .gguf. Удобно для переноса.
Широкая поддержка: Работает в llama.cpp, LM Studio, Ollama, KoboldCpp. Фактически стандарт для CPU.

Минусы GGUF:

Медленнее на GPU: Если у вас мощная видеокарта (RTX 3090/4090/5090), GGUF не раскроет ее потенциал. Он заточен под CPU.
Ограниченная поддержка новых архитектур: Для экзотических моделей может не быть готовых GGUF-конвертеров.

💡

GGUF идеален, если у вас мощный процессор и много ОЗУ, или если вы хотите запускать модели на сервере без GPU. Для настольных ПК с игровыми видеокартами есть варианты лучше.

AWQ: активационно-взвешенное квантование для максимального качества

AWQ (Activation-aware Weight Quantization) — это формат, который думает не только о весах, но и об активациях. Он ищет, какие веса важны для конечного результата, и квантует менее важные сильнее. Результат — модель сохраняет почти оригинальную точность даже при агрессивном 4-битном квантовании.

Как работает: AWQ анализирует, как активации проходят через слои модели, и определяет "чувствительные" веса. Эти веса квантуются с более высокой точностью (например, в 4 бита), а остальные — в 3 или даже 2 бита. На выходе получаем модель, которая по точности близка к FP16, но весит в 4 раза меньше.

Плюсы AWQ:

Лучшее сохранение точности: В тестах на 04.04.2026, AWQ-4bit часто обходит GGUF Q4_K_M по точности в задачах рассуждения.
Высокая скорость на GPU: Формат заточен под NVIDIA GPU через библиотеки вроде TensorRT-LLM или vLLM. Модели летают.
Поддержка современных архитектур: Отлично работает с новыми моделями вроде Qwen3.5 72B, DeepSeek-V3, Command R+.

Минусы AWQ:

Сложность конвертации: Чтобы сделать AWQ-версию модели, нужен доступ к калибровочному датасету и время на анализ. Не все модели доступны в этом формате.
Привязка к GPU: На CPU он работает гораздо медленнее, чем GGUF.
Зависимость от инструментов: Для запуска нужны специфические рантаймы, например, TensorRT-LLM Pro (партнерская ссылка) или vLLM с поддержкой AWQ.

EXL2: дробное квантование для тотального контроля

EXL2 — это формат для движка ExLlamaV2. Его фишка — поддержка дробного битрейта (например, 3.5 bpw — bits per weight). Вы можете указать разную степень квантования для разных частей модели. Скажем, эмбеддинги оставить в 6 битах, а основные слои сжать до 3.5.

Как работает: При конвертации вы задаете целевой размер модели (например, 20 ГБ) или битрейт для каждой группы слоев. Алгоритм сам решает, как лучше распределить биты, чтобы минимизировать потерю точности. Это самый гибкий формат из всех.

Плюсы EXL2:

Беспрецедентная гибкость: Хотите модель точно под вашу видеопамять? Укажите размер в гигабайтах — EXL2 сам подберет битрейт.
Максимальная скорость на NVIDIA: ExLlamaV2 — один из самых быстрых рантаймов для GPU в 2026 году. Поддержка continuous batching, PagedAttention.
Идеально для смешанной нагрузки: Можно создать модель, где первые слои в высоком битрейте (для качества), а последние — в низком (для скорости).

Минусы EXL2:

Только для GPU: Работает исключительно на CUDA. На AMD, Intel или CPU — никак.
Сложная конвертация: Требует много видеопамяти для конвертации (иногда больше, чем весит оригинальная модель).
Экосистема поменьше: Поддерживается в основном ExLlamaV2 и TabbyAPI. В тот же Ollama его не добавили.

EXL2 — это выбор перфекциониста с мощной NVIDIA-картой, который готов потратить час на конвертацию, чтобы выжать из модели каждую каплю производительности.

Сравнительная таблица: GGUF vs AWQ vs EXL2 (2026)

Критерий	GGUF	AWQ	EXL2
Основная цель	Запуск на CPU / низкие требования	Максимальное качество на GPU	Максимальная скорость и контроль на GPU
Типичный размер (70B модель)	~40 ГБ (Q4_K_M)	~35 ГБ (4-bit)	~20-40 ГБ (настраиваемый)
Скорость на RTX 5090	Средняя (20-40 токенов/с)	Высокая (40-70 токенов/с)	Очень высокая (60-100+ токенов/с)
Скорость на CPU (Ryzen 9)	Хорошая (5-15 токенов/с)	Плохая (1-3 токенов/с)	Не поддерживается
Сохранение точности	Хорошее	Отличное	Зависит от настроек, может быть отличным
Простота использования	Очень проста (скачал и запустил)	Средняя (нужен подходящий рантайм)	Сложная (конвертация, настройка)
Лучший инструмент	lmstudio.ai (партнерская ссылка), llama.cpp	vLLM, TensorRT-LLM	ExLlamaV2, TabbyAPI

Что выбрать? Решение зависит от вашего железа

Ситуация 1: У вас мощный GPU (RTX 4080/4090/5090 или лучше)

Забудьте про GGUF. Ваш выбор — AWQ или EXL2.

Выбирайте AWQ, если вам важнее всего качество ответов и простота. Скачали готовую модель с HuggingFace (тег TheBloke или другого поставщика), запустили в vLLM — и работаете. Идеально для продакшена, где важна стабильность.
Выбирайте EXL2, если вы гонитесь за максимальной скоростью и готовы повозиться с конвертацией. Хотите запустить Llama 3.4 70B на 24 ГБ видеопамяти? EXL2 с битрейтом 3.5 bpw позволит это сделать. Это выбор для энтузиастов и тех, кто делает свои кастомные решения.

Ситуация 2: У вас средний или слабый GPU, но много ОЗУ

GGUF — ваш спаситель. Запускайте модели через llama.cpp с использованием слоев на GPU (флаг -ngl). Например, Llama 3.3 8B в Q4_K_M отлично пойдет на RTX 3060 с 12 ГБ. Большие модели (70B) будут работать в основном на CPU, но с ускорением некоторых слоев на GPU. Это компромисс, но он работает. В нашем гайде по скачиванию GGUF есть детали.

Ситуация 3: У вас только CPU (сервер, ноутбук без дискретной графики)

Только GGUF. И никаких сомнений. Настройте llama.cpp на использование всех ядер и AVX-512, если есть. Модели до 13B параметров будут работать вполне шустро. Для 70B моделей потребуется серверная платформа с 128+ ГБ ОЗУ.

Частые ошибки и как их избежать

Ошибка 1: Скачать первую попавшуюся квантованную модель. На HuggingFace у одной модели может быть 20 вариантов квантования. Q4_K_M, Q5_K_S, IQ3_XS, AWQ, EXL2... Берите тот, который поддерживает ваш рантайм. Проверяйте документацию инструмента.

Ошибка 2: Запускать EXL2 модель без указания правильного параметра --max_seq_len. ExLlamaV2 кэширует внимание, и если задать длину контекста меньше, чем было при конвертации, модель может выдавать бессмыслицу. Всегда сверяйтесь с описанием модели.

Ошибка 3: Думать, что 8-битное квантование всегда лучше 4-битного. В 2026 году современные 4-битные методы (AWQ, EXL2 с настройкой) часто превосходят наивное 8-битное квантование по точности, потому что умнее распределяют биты. Не гонитесь за большим числом бит — гонитесь за методом.

Что будет дальше? Прогноз на 2027

Гонка форматов не закончится. Уже сейчас появляются гибридные подходы, где модель динамически квантуется во время исполнения в зависимости от сложности входных данных. Стандарт GGUF, вероятно, получит нативную поддержку большего количества архитектур и, возможно, лучшую интеграцию с GPU. AWQ и EXL2 сольются в некий унифицированный формат, который будет сочетать преимущества обоих — осознанное квантование AWQ и гибкость EXL2.

Но главный тренд — это не новые форматы, а автоматизация выбора. Представьте инструмент, который анализирует ваше железо, желаемую модель и задачу, а затем сам скачивает и настраивает оптимальную квантованную версию. Эдакий Ollama на стероидах. Это то, что действительно изменит игру, сделав всю сегодняшнюю возню с форматами невидимой для пользователя. Но пока этого не случилось — выбирайте с умом.

P.S. Если после прочтения у вас остались вопросы, загляните в нашу коллекцию промптов для тестирования. Лучший способ сравнить форматы — прогнать их через одинаковые задачи и посмотреть, кто справится лучше.

Подписаться на канал

GGUF, AWQ и EXL2: полное сравнение форматов моделей для локального запуска LLM