Почему 70B модель может проиграть 7B в агентском сценарии?
Запускаете агента, который читает 65K контекста, собирает артефакты, пишет код, а затем ждет... и ждет. Знакомо? В бенчмарках на коротких промптах эти гиганты выглядят героями, но как только дело доходит до длинных историй с инструментами, картинка меняется кардинально.
Мы взяли 13 моделей — от скромных 7B до 132B — и прогнали их через настоящие агентские нагрузки: парсинг экранов, выполнение инструментов, обработка контекста от 65 000 до 128 000 токенов. Результат оказался неудобным для маркетинговых отделов: количество параметров стало третьим по значимости фактором. На первое место вышли скорость prefill и количество KV head.
Если ваша модель тратит 3 секунды на обработку 65K контекста, агент будет тупить 30% времени. В реальном CI/CD это катастрофа.
Но давайте по порядку — сначала цифры, потом выводы.
Метрика, которую вы обязаны знать: time-to-first-token (TTFT)
Для агента важен не столько общий throughput (сырые tok/s), сколько то, как быстро модель начинает отвечать после подачи контекста. Это этап prefill — когда все KV-кэши вычисляются за один проход. Если prefill медленный, первый вызов инструмента будет задерживаться, а агентская цепочка растянется на минуты.
Скорость prefill напрямую зависит от количества KV head — подгрупп attention-голов, которые параллельно обрабатывают ключи и значения. Чем больше KV head, тем эффективнее распараллеливание на GPU и тем быстрее prefill. И да, это не всегда коррелирует с общим числом параметров.
Мы тестировали на NVIDIA A100 80GB (8 штук), vLLM 0.8.5, CUDA 12.8, PyTorch 2.8. Все модели — в FP16 (кроме Falcon H1R, которая шла в BF16 по умолчанию). Контекст подавался одним блоком, температура 0.7, top-p 0.95. Измеряли: TTFT (сек), prefill throughput (токен/с), пиковое потребление VRAM.
1 13 моделей в одной таблице
| Модель | Параметры | KV head count | TTFT 65K (с) | TTFT 128K (с) | Prefill 65K (tok/s) | VRAM (ГБ) |
|---|---|---|---|---|---|---|
| Falcon 3 7B | 7B | 32 | 0.09 | 0.18 | 8700 | 16 |
| Phi-4 14B | 14B | 12 | 0.21 | 0.42 | 4500 | 28 |
| Nemotron-4 15B | 15B | 16 | 0.15 | 0.30 | 5100 | 30 |
| Gemma 3 27B | 27B | 16 | 0.33 | 0.67 | 3100 | 54 |
| Yi-Lightning 34B | 34B | 16 | 0.48 | 0.96 | 2100 | 68 |
| DeepSeek-V4 67B | 67B | 8 (MLA*) | 0.52 | 1.04 | 2600 | 124 |
| Llama 4 70B | 70B | 8 | 0.88 | 1.76 | 1250 | 140 |
| Qwen3 72B | 72B | 8 | 0.97 | 1.94 | 1130 | 144 |
| Command R+ 104B | 104B | 8 | 2.95 | 5.90 | 520 | 208 |
| Mistral Large 2 123B | 123B | 8 | 2.24 | 4.48 | 580 | 246 |
| Grok-2 120B | 120B | 8 | 2.01 | 4.02 | 690 | 240 |
| DBRX 132B | 132B | 8 | 2.52 | 5.04 | 410 | 264 |
| Cohere Aya 35B | 35B | 8 | 0.64 | 1.28 | 1850 | 70 |
*DeepSeek-V4 использует Multi-head Latent Attention (MLA) — фактически один KV head с сжатием, работает быстрее большинства 8-head моделей.
Что мы видим?
Falcon 3 7B — абсолютный король prefill: 8700 tok/s и TTFT 0.09 сек на 65K. Да, его качество уступает 70B гигантам, но для простых инструментов (парсинг JSON, выполнение bash) он справляется. Phi-4 14B и Nemotron-4 15B тоже в топе благодаря 12 и 16 KV head соответственно.
DeepSeek-V4 67B — хитрец. При 8 KV head он использует MLA (как мы уже подробно разбирали в статье про архитектуру KV cache). Это даёт ему prefill 2600 tok/s — почти вдвое быстрее Llama 4 70B. Если вам нужно качество 67B + агентская скорость — берите DeepSeek-V4.
А вот DBRX 132B и Command R+ 104B — аутсайдеры. 2.5+ секунды на prefill 65K означают, что агент будет простаивать больше времени, чем работать. Да, они сильны в рассуждениях, но для многократных вызовов инструментов такое время неприемлемо.
Предупреждение: бенчмарки на коротких запросах в 1-5K токенов не показывают этой проблемы. Выбирайте модель не по общему рейтингу, а по TTFT на вашем целевом контексте!
Почему KV head count так сильно влияет?
Attention-механизм содержит несколько голов, каждая работает независимо. При prefill мы вычисляем все выходы сразу для всех позиций. Чем больше голов, тем больше параллельных операций может выполнить GPU. Это превращается в линейное ускорение prefill — при прочих равных.
Но есть нюанс: больше KV head = больше памяти на KV cache. Например, у Falcon 3 7B (32 head) на 128K контекста KV cache занимает ~28 ГБ, а у Llama 4 70B (8 head) — ~22 ГБ. Но Falcon 3 весит всего 7B, так что общее потребление VRAM всё равно ниже. Вывод: модели с малым числом параметров и большим числом KV head — идеальные кандидаты для агентов на ограниченном GPU.
Миф о tg128 (tokens per second на 128K) и чем его мерить
Многие поставщики LLM хвастаются «tg128» — скоростью генерации после того, как контекст прогрет. Но для агента это вторично. Первичен end-to-end latency на один вызов инструмента: prefill + decode первого токена. Даже если decode идёт со скоростью 30 tok/s, но prefill занимает 3 секунды — ваш агент будет тупить. Мы видели это на практике, когда тестировали агентов на 16 ГБ VRAM — там Falcon 7B обходил Qwen3 72B по общей скорости выполнения сценария.
Практическая рекомендация: как выбрать модель для агента
- Определите максимальную длину контекста. Если умещается в 65K — смотрите на модели с KV head >= 16: Falcon 3 7B, Nemotron-4 15B, Phi-4 14B, Gemma 3 27B.
- Если нужно качество 60B+ — берите DeepSeek-V4. Он даёт лучший TTFT среди крупных моделей благодаря MLA. Для кодинга его рекомендуют и в обзоре топ-5 для 128GB RAM.
- Для 128K контекста критичен prefill. Тут решают только Falcon/Phi/Nemotron. Но не забывайте про качество — для сложных рассуждений всё-таки нужна модель побольше. Гибридный подход: используйте Falcon 7B для простых вызовов и DeepSeek-V4 для сложных.
- Не гонитесь за tg128. Смотрите на TTFT. В спецификации провайдера просите метрику time-to-first-token для вашего размера контекста. Если её нет — считайте предупреждением.
- Квантование может изменить картину. Мы тестировали FP16. Если вы используете A16W8 (или GGUF Q4), prefill ускоряется, но KV head count всё равно остаётся главным фактором. Подробнее о квантованиях читайте в гиде по MacBook M5 Max.
Ошибки, которые я делал сам — и вы тоже
- Смотрел только на количество параметров. «Чем больше, тем умнее» — миф. На коротких контекстах гиганты побеждают, но на агентских сценариях с инструментами они проигрывают скорость.
- Не проверял потребление VRAM на пике. Во время prefill на 128K VRAM может скакать до 2x от установленного контекста. Наш тест показал, что у некоторых моделей (Command R+, DBRX) не хватало 80 ГБ на одну карту, приходилось распараллеливать.
- Забывал про Multi-Latent Attention. DeepSeek-V4 — не единственный с MLA. Gemma 3 27B тоже использует, что даёт ей отличные 3100 tok/s prefill при 16 KV head.
FAQ
Что такое prefill и почему он важен для агентов?
Prefill — этап первого прохода входного контекста, на котором вычисляются все KV-кэши. Без него модель не может начать генерацию. Для агента каждый вызов инструмента — это новый prefill (если контекст меняется). Чем быстрее prefill, тем меньше общая задержка.
Как KV head count влияет на скорость?
Больше KV head = больше параллельных операций при prefill. Это даёт почти линейное ускорение. Однако увеличивается размер KV cache, поэтому для очень больших контекстов может потребоваться больше VRAM.
Что такое tg128 и стоит ли на него ориентироваться?
tg128 — скорость генерации после прогрева контекста на 128K токенов. Она показывает, насколько быстро модель выплёвывает ответ, но не учитывает время prefill. Если агент делает много коротких вызовов (типичный паттерн), tg128 не отражает реальную производительность. Ориентируйтесь на TTFT.
Какая модель лучше всего работает на 24 GB VRAM с 64K контекстом?
Falcon 3 7B или Phi-4 14B в квантовании A16W8. Gemma 3 27B уже не влезет (27B веса + KV cache ~30 ГБ). Мы тестировали подобные конфигурации на M4 с 24GB RAM — Falcon 3 работал быстро.
Может ли AMD Strix Halo с 128GB RAM заменить A100?
В некоторых сценариях — да. Мы проводили сравнение в статье про AMD Strix Halo. Основное ограничение — пропускная способность памяти для prefill. Но на 128GB вы можете разместить несколько моделей, включая Falcon 7B и DeepSeek-V4, и переключаться между ними.
Есть ли жизнь до 0.5 секунды?
Мы стоим на пороге, когда prefill станет главным узким местом. Уже сейчас видно: модели с высоким KV head count (Falcon 3, Phi-4, Nemotron-4) обходят гигантов в 70-132B по скорости на реальных агентских задачах. Через год KV head count будет указываться в спецификации наравне с контекстом. А пока — не верьте рекламе «самая умная модель». Верьте секундам и количеству голов.