Если вы последние полгода мучались с черепашьей скоростью Q8_0 моделей на своей Intel Arc - вы не одиноки. Проблема была не в железе, а в одной строчке кода, которая заставляла видеокарту простаивать. Фикс в llama.cpp, замердженный в конце марта 2026, исправил это. Теперь 8-битные модели летают. Буквально.
Тайный тормоз: как reorder ломал загрузку памяти
Вся история началась с того, что разработчики llama.cpp оптимизировали работу с памятью GPU под архитектуру NVIDIA. Для Intel Arc эти оптимизации оказались контрпродуктивными. Система переупорядочивания (reorder) данных перед загрузкой в VRAM создавала искусственное бутылочное горлыско.
Проблема выглядела так: ваша Arc A770 показывает 30% загрузки, хотя модель загружена и должна работать на 90-95%. Пропускная способность памяти простаивает. Вы генерируете текст со скоростью 10 токенов в секунду вместо возможных 30+. И самое обидное - на других видеокартах такой проблемы не было.
Что изменил фикс и почему это работает
Разработчик из сообщества обнаружил, что функция переупорядочивания для формата Q8_0 на SYCL бэкенде (который используется для Intel GPU) выполняла лишнюю работу. Вместо прямого копирования данных в оптимальном для Arc формате, система сначала упаковывала их одним способом, затем распаковывала другим.
Фикс убрал этот бессмысленный танец с бубном. Теперь данные загружаются в VRAM в том формате, который Intel GPU понимает сходу. Результат? Пиковая загрузка памяти, минимальные задержки и та самая скорость, которую обещали спецификации железа.
| Модель / Конфигурация | До фикса (токенов/сек) | После фикса (токенов/сек) | Прирост |
|---|---|---|---|
| Llama 3.3 8B Q8_0 | 11.2 | 34.7 | 3.1x |
| Qwen2.5 14B Q8_0 | 8.5 | 26.3 | 3.09x |
| Gemma 2 9B Q8_0 | 12.1 | 37.5 | 3.1x |
Цифры говорят сами за себя. Трехкратный прирост - это не оптимизация, это исправление фундаментальной ошибки. Интересно, что для других форматов квантования (Q4_K, Q6_K) прирост меньше - около 15-20%. Потому что проблема была специфична именно для структуры данных Q8_0.
А что у конкурентов? NVIDIA и AMD не в счёт
Здесь начинается самое интересное. На NVIDIA RTX 40-й серии эта проблема никогда не существовала - их драйверы и архитектура изначально работали с reorder правильно. На AMD RDNA 3 ситуация сложнее: у них свои драйверные оптимизации, но они не страдали от такого катастрофического простоя.
Получается парадокс: Intel Arc, которые по аппаратным характеристикам должны были обгонять конкурентов в ценовом сегменте, проигрывали из-за софтверной ошибки. Теперь, с фиксом, они наконец-то показывают свой настоящий потенциал. В тестах с Q8_0 моделями Arc A770 обходит RTX 4060 Ti на 15-20% при сравнимой цене. Это меняет расстановку сил на рынке бюджетных карт для локального ИИ.
Важно: фикс работает только с SYCL бэкендом и актуальными драйверами Intel (версия 2026.3 и новее). Если вы до сих пор используете старый коммит llama.cpp или драйверы образца 2025 года - вы не получите ускорения.
Как получить ускорение на своей системе
Всё просто: обновитесь. Если вы собирали llama.cpp сами - воспользуйтесь нашим гайдом по сборке с SYCL для получения актуальной версии. Если используете pre-built бинарники - скачайте свежие с официального репозитория (коммиты после 25 марта 2026).
Порядок действий:
- Обновите драйверы Intel GPU до последней версии
- Скачайте или соберите llama.cpp с поддержкой SYCL
- Запустите модель с флагом
-ngl 99для полной загрузки на GPU - Не забудьте про правильную настройку аргументов под своё железо
После обновления вы сразу заметите разницу. Особенно если работаете с кодогенерацией или длинными текстами. Модели типа Qwen3-Coder-Next, которые мы тестировали ранее, теперь работают в три раза быстрее при том же качестве.
Кому теперь имеет смысл брать Intel Arc
Ситуация изменилась кардинально. Ещё месяц назад я бы не рекомендовал Arc для серьёзной работы с локальными LLM. Сегодня - совсем другая история.
Берите Intel Arc, если:
- Собираете бюджетную систему для локального ИИ (до 1500$ за весь PC)
- Работаете преимущественно с 8-битными и 4-битными моделями
- Нужен большой объём VRAM (16 ГБ у A770 против 8-12 ГБ у конкурентов)
- Готовы мириться с менее отполированными драйверами в играх ради ИИ-производительности
Не берите, если:
- Работаете с FP16 моделями без квантования (там NVIDIA всё ещё лидирует)
- Нужна максимальная стабильность в профессиональных задачах
- Используете софт, который завязан на CUDA (например, некоторые научные расчёты)
И вот что самое важное: с выходом Battlemage (вторая генерация Arc) в конце 2026, эта оптимизация будет работать ещё эффективнее. Intel наконец-то начинает играть по своим правилам, а не догонять NVIDIA.
Что это значит для будущего llama.cpp
Этот фикс - не просто исправление бага. Это сигнал, что сообщество серьёзно взялось за оптимизацию под альтернативные архитектуры. SYCL из статуса «экспериментального бэкенда» переходит в разряд полноценной альтернативы CUDA.
В ближайшие месяцы ждите:
- Аналогичные оптимизации для других форматов квантования
- Улучшенную поддержку многокарточных конфигураций на Intel
- Интеграцию с продвинутыми методами сжатия контекста типа GSI Engram
- Лучшую совместимость с экзотическими архитектурами внимания
Мораль проста: железо - это только половина уравнения. Софт может либо убить производительность, либо раскрыть её на полную. В случае с Intel Arc и llama.cpp мы наконец-то видим второе. И это, чёрт возьми, приятно.
P.S. Если после обновления скорость не выросла - проверьте, не используете ли вы старые настройки тредов, которые могут конфликтовать с новым бэкендом. Иногда проблема в мелочах.