Вы купили RX 7900 XTX, потому что на бумаге 24 ГБ и куча вычислительных блоков. Вы прочитали десятки гайдов по ROCm, накатили драйверы, запустили llama.cpp. Модель Qwen3.6 27B работает. Но как только контекст переваливает за 16K токенов — привет, медленное перемалывание, а потом segfault или OOM. Знакомо? Я тоже через это прошёл. Встречайте hipfire — связку, которая разрывает шаблоны и выжимает из 7900 XTX почти 40 токенов в секунду на длинных контекстах.
01 Май 2026
•
Гайд
Как приручить hipfire в Docker: Qwen3.6 27B летает на AMD RX 7900 XTX с 40 tok/s
Пошаговый гайд по запуску hipfire в Docker на AMD RX 7900 XTX. Решаем long context failures у Qwen3.6 27B с помощью TriAttention, DFlash, скорость 40 tok/s. Сов