Реалити-чек по GPU для LLM: пропускная способность не главное | AiManual
AiManual Logo Ai / Manual.
31 Май 2026 Гайд

Сравнение характеристик GPU для локального LLM: почему пропускная способность — не всё (реалити-чек)

Разбираем мифы о выборе GPU для локальных LLM. Почему пропускная способность памяти — не единственный критерий, и как не попасться на маркетинговые уловки. Реал

Вы открываете сайт с характеристиками видеокарт. Пропускная способность: 1 ТБ/с. Глаза загораются. «Вот это скорость!» — думаете вы. Потом покупаете, ставите LM Studio, запускаете Llama 3 70B — и получаете 0.5 токена в секунду. Поздравляю, вы только что стали жертвой самого популярного заблуждения в мире локального AI.

В 2026 году, когда даже бюджетные карты имеют пропускную способность под 600 ГБ/с, маркетологи и бенчмаркеры продолжают вбивать в головы: «чем выше bandwidth — тем быстрее инференс». Реальность сложнее. Гораздо сложнее. И болезненнее для кошелька.

Спойлер: RTX 4090 (1008 ГБ/с) не в 10 раз быстрее RTX Pro 6000 (960 ГБ/с) в LLM. А RX 7900 XTX (960 ГБ/с) проигрывает RTX 3090 (936 ГБ/с) в 5 раз, хотя bandwidth почти одинаковый. Почему? Читайте дальше.

Миф №1: Bandwidth правит всем

Откуда вообще взялась эта мания? Инференс LLM — операция memory-bound. Модель весит десятки гигабайт, weights загружаются в кэш, умножаются на активации — и так миллиарды раз. Теоретически, чем быстрее память, тем быстрее идут матричные умножения. Теоретически.

На практике bottleneck перекидывается на другие компоненты: ядра CUDA, контроллер памяти, драйверы, скорость PCIe, даже частоту процессора. Пример с AMD — классика. В нашем тесте RX 7900 XTX и RTX 3090 при одинаковой пропускной способности (~960 ГБ/с) разница в скорости генерации составила 5.4 раза. Не в пользу AMD.

Почему? Потому что на Windows LM Studio использует Vulkan, а не ROCm. Vulkan — графический API, которому тензорные вычисления даются через пень-колоду. CUDA же — родная среда для LLM. И никакой bandwidth не спасёт, если софт не умеет его использовать.

Карта Bandwidth (ГБ/с) Токенов/сек (Qwen3-30B Q4_K_M)
RTX 3090 936 12.5
RX 7900 XTX 960 2.3

Вывод: bandwidth — необходимое, но недостаточное условие. Без нормального софта это просто цифры на бумаге.

Миф №2: Больше VRAM — всегда лучше

Здесь логика простая: модель 70B требует ~40 ГБ в fp16. Значит, карта с 48 ГБ — идеал. Но есть нюанс: скорость. Сравнение RTX Pro 6000 (48 ГБ) и RTX 4090 (24 ГБ) показало, что на моделях, помещающихся в 24 ГБ, 4090 быстрее на 30-40% из-за более высокой тактовой частоты ядер. Но как только модель не влезает — 4090 начинает использовать offloading в ОЗУ, и скорость падает в разы.

Жизненный пример: Mixtral 8x22B (~42 ГБ в Q4_K_M). RTX 4090: 2.1 токена/с (тяжелый offload). RTX Pro 6000: 14.8 токенов/с (всё в VRAM). Разница — 7x. При этом bandwidth у 4090 выше (1008 vs 960 ГБ/с). Вот вам и «bandwidth решает».

Мораль: сначала VRAM, потом bandwidth. Если модель не влазит целиком — дорогая память бесполезна.

Скрытый убийца: Quality of Service квантования

Когда вы сравниваете карты по токенам в секунду, вы смотрите на скорость, но не смотрите на качество. Квантование — это компрессия. Q4_K_M даёт ~4.5 бита на параметр. Q3_K_M — ~3.5 бита. Разница в скорости на одной карте может быть 1.5x, но качество генерации может упасть настолько, что модель начнет галлюцинировать.

Здесь в игру вступают Tensor Cores и поддержка mixed precision. NVIDIA с их FP8 и FP4 трансформерами (начиная с Blackwell) могут запускать модель в 4-битном формате с минимальной потерей качества. AMD? RDNA 3 не поддерживает FP8 нативно — только эмуляция через матричные блоки. Это ещё один удар по реальной производительности.

Поэтому когда вы видите бенчмарк, где RX 7900 XTX показывает 20 токенов/с на Q2_K — не радуйтесь. Это всё равно что сравнивать MP3 битрейтом 32 kbps с FLAC. Быстро, но непригодно для использования.

Multi-GPU: когда два лучше, чем один (но не всегда)

Сборка из двух RTX 4090 — популярная тема. В моём опыте две карты дают 48 ГБ VRAM и bandwidth 2×1008 ГБ/с — теоретически идеально. Но на практике включите PCIe bottleneck.

В нашем исследовании PCIe 4 vs PCIe 5 выяснилось: на моделях 30B+ разница между PCIe 4.0 x16 и 5.0 x16 составляет до 15% в пользу 5.0. Казалось бы, не критично. Но если вы используете две карты на PCIe 4.0 x8 (что часто бывает на consumer платформах), падение может достигать 30-40%.

💡
Вывод: при сборке multi-GPU не экономьте на процессоре и материнской плате. Ryzen 9 7950X с PCIe 5.0 — минимальный стандарт для двух карт.

А как же Apple Silicon?

Mac Studio на M3 Ultra с 192 ГБ unified memory — мечта для LLM. Пропускная способность ~800 ГБ/с, но это память, разделённая между CPU и GPU. В реальности на больших контекстах (32K+) Mac начинает проигрывать RTX 4090 из-за меньшей вычислительной мощности ядер Neural Engine против Tensor Cores. Тесты на мобильном железе Strix Halo показывают, что unified memory — палка о двух концах: модель влезает, но скорость ниже дискретных решений.

Итоговый реалити-чек: что реально важно?

Давайте соберём все факторы в порядке приоритета для локального LLM (вес — субъективная оценка на основе тестов):

  1. VRAM (вес 40%). Модель должна помещаться целиком. 48 ГБ — золотой стандарт для 70B с квантованием Q4. 24 ГБ — минимум для 30B.
  2. Software stack (вес 30%). CUDA и его экосистема (TensorRT-LLM, vLLM, llama.cpp) — это не просто удобно, это даёт 3-5x прирост на AMD. Выбор NVIDIA — почти обязательное условие для серьёзной работы.
  3. Bandwidth (вес 20%). Важно, но только если модель уже влезла и софт нормальный. Для справки: 800+ ГБ/с — хорошо, 500-800 — достаточно, ниже — тормоза.
  4. Compute (вес 10%). Tensor Cores, поддержка FP8, количество ALU. Имеет значение для очень больших батчей и серверных нагрузок.

Таблица факторов для основных GPU на рынке (май 2026):

GPU VRAM Bandwidth Софт Реальная скорость (30B Q4)
RTX 4090 24 ГБ 1008 ГБ/с Отлично ~20 токенов/с
RTX Pro 6000 48 ГБ 960 ГБ/с Отлично ~17 токенов/с (без offload)
RX 7900 XTX 24 ГБ 960 ГБ/с Плохо ~2-4 токенов/с
2×RTX 4090 48 ГБ ~900 ГБ/с* Хорошо ~35 токенов/с (зависит от PCIe)
Mac M3 Ultra (192 ГБ) 192 ГБ ~800 ГБ/с Средне ~8-10 токенов/с (на 70B Q4)

* Для двух карт bandwidth не суммируется, так как данные дублируются в каждой.

Обратите внимание: у RTX Pro 6000 bandwidth ниже, чем у 4090, но на моделях 70B+ она вырывается вперёд просто потому, что не использует offload. Bandwidth — лишь один элемент пазла.

Ошибка, которую совершают 90% новичков

Выбирают карту «с запасом» по bandwidth, забывая про VRAM. Пример: RTX 4070 Ti Super (16 ГБ, 672 ГБ/с) vs RTX 3090 (24 ГБ, 936 ГБ/с). Первая дешевле, новее, bandwidth почти 700 — но модель 30B Q4 в 16 ГБ не влезает. Начинается offload в ОЗУ, скорость падает до 1-2 токенов. RTX 3090, хоть и старше, выдаёт стабильные 12+ токенов. В нашей статье про VRAM мы подробно разобрали, почему 24 ГБ — это новый минимум, а не роскошь.

На май 2026 года, с выходом моделей вроде Qwen3 72B и Llama 4 70B, 48 ГБ становятся стандартом для серьёзной работы. Если вы покупаете карту сейчас — смотрите на VRAM в первую очередь, на bandwidth — во вторую, на бренд — в третью (но если бюджет позволяет, берите NVIDIA).

Ошибка №2: Игнорирование процессора. Для multi-GPU сборок Ryzen 9 7950X или Threadripper — не роскошь, а необходимость. Иначе PCIe bottleneck съест весь выигрыш от двух карт. В статье про масштабирование мы показали, как правильно балансировать компоненты.

Неочевидный совет напоследок

Не гонитесь за флагманами. RTX 5090, вышедшая в конце 2025, даёт ~150% производительности 4090 на синтетике, но в реальных LLM прирост всего 30-40% из-за всё того же memory bottleneck. А стоит в 2.5 раза дороже. Лучше купить две 4090 б/у — у вас будет 48 ГБ и скорость выше, чем у одной 5090. Для первого AI-PC вообще советую RTX 5060 Ti 16 ГБ — дешёво и сердито для старта, а потом апгрейд на 4090.

Помните: лучшая карта для LLM — та, которая может загрузить всю модель в VRAM и имеет нормальный софт. Всё остальное — маркетинг.

Подписаться на канал