359 токенов в секунду — это много или мало?
Я только что закончил тестировать 40 моделей на железе, которое реально стоит в дата-центрах. Не на суперкомпьютерах Google, а на том, что вы арендуете у Hetzner или Scaleway. Результаты убивают один миф: средний класс моделей умер. Остались только два режима работы.
Liquid LFM 2.5 выдает 359 токенов в секунду на одной A100. Ministral 3B — 187 TPS. Разница почти в два раза. Но цена за токен у Liquid в 1.8 раза выше. Где логика? А вот где.
Все тесты проводились на 10.02.2026 на конфигурации: 1x NVIDIA A100 80GB, 32 vCPU, 128GB RAM. Использовались последние версии моделей: Liquid LFM 2.5 (релиз январь 2026), Mistral Ministral 3B (релиз декабрь 2025).
Два режима работы: God Mode и Flash Mode
Забудьте про линейку от маленьких к большим моделям. В 2026 году работают только две стратегии.
1 God Mode: качество любой ценой
Берете модель на 70B+ параметров вроде Loki-v2-70B или Trinity 400B от Arcee AI. Запускаете на кластере GPU. Ждете ответ 2-3 секунды. Платите $0.15 за 1K токенов. Но получаете качество, близкое к человеческому.
Это для финального контента, юридических документов, медицинских консультаций. Там, где ошибка стоит дороже тысячи токенов.
2 Flash Mode: скорость как религия
Тут живут модели до 3B параметров. Liquid LFM 2.5 (1.2B), Ministral 3B, LFM2.5 1.2B Instruct. Они не думают — они стреляют. 200-400 токенов в секунду. Latency под 10 мс.
Идеально для чат-ботов, премодерации контента, классификации, извлечения сущностей. Когда нужно обработать 10 000 запросов в секунду, а не поразить одного пользователя гениальностью.
| Модель | Параметры | TPS (A100) | Стоимость / 1M токенов | Режим |
|---|---|---|---|---|
| Liquid LFM 2.5 | 1.2B | 359 | $0.85 | Flash |
| Ministral 3B | 3B | 187 | $0.47 | Flash |
| Ling 17B | 17B | 89 | $1.20 | — |
| Kimi K2.5 | 8B | 112 | $0.95 | — |
| Loki-v2-70B | 70B | 24 | $8.50 | God |
Почему Liquid LFM 2.5 быстрее, но дороже?
Архитектура. Liquid AI использует Liquid State Networks — нейросети с непрерывно меняющейся структурой. Они жертвуют универсальностью ради скорости на конкретных задачах.
Ministral 3B — классический трансформер с вниманием. Универсальнее, дешевле в обучении, но медленнее в инференсе.
Представьте разницу между гоночным болидом (Liquid) и надежным седаном (Ministral). Болин быстрее на треке, но дороже в обслуживании. Седан едет по всем дорогам, стоит дешевле.
Важный нюанс: Liquid LFM 2.5 показывает 359 TPS только на задачах, для которых он оптимизирован (классификация, NER). На генерации кода или творческом письме скорость падает до 200-220 TPS. Ministral 3B стабилен на всех задачах.
Тактика выбора: 5 вопросов перед запуском
Не смотрите на TPS. Задайте себе эти вопросы:
- Какая задержка допустима? Если больше 100 мс — Flash Mode. Если можно ждать 2 секунды — God Mode.
- Однотипные запросы или все разные? Liquid LFM 2.5 для конвейера одинаковых задач. Ministral 3B для разнообразия.
- Бюджет на токены или на инфраструктуру? Liquid дороже за токен, но экономит на GPU (меньше инстансов). Ministral дешевле за токен, но требует больше GPU для той же пропускной способности.
- Нужны ли инструменты (tool calling)? Ministral 3B отлично вызывает инструменты. Liquid LFM 2.5 слабее в этом.
- Будет ли модель работать в edge-устройствах? Оба варианта помещаются в 6 ГБ VRAM, но Liquid требует специализированных ядер.
Агентные системы: кто кого?
Для автономных агентов, которые делают 100+ шагов, важна не только скорость, но и консистентность. Ministral 3B выигрывает здесь.
Почему? Потому что агент должен помнить контекст на протяжении всей цепочки. Liquid LFM 2.5 иногда "теряет нить" после 20-30 шагов. Ministral держит до 50+.
Для игровых NPC лучше Ministral. Для анализа логов в реальном времени — Liquid.
Китайские модели в гонке
В тестах участвовали DeepSeek V4, Kimi K3 и MiniMax M2.2. Результат: они догоняют, но не лидируют в Flash Mode.
DeepSeek V4-Lite (3B) показывает 201 TPS — быстрее Ministral, но качество ответов на английском хуже. Для китайского рынка — отличный выбор. Для глобального — пока нет.
Ошибки, которые все совершают
- Гнаться за TPS без учета качества. 359 токенов в секунду бесполезны, если 30% ответов — мусор.
- Тестировать на маленьком датасете. Разница в 5% TPS на 1000 запросах — статистический шум. Нужно 100 000+.
- Забывать про стоимость владения. Liquid LFM 2.5 требует лицензии Enterprise. Ministral 3B — Apache 2.0. Разница в $50K/год.
- Игнорировать latency вариабельность. P99 latency у Liquid — 15 мс, но P99.9 — 120 мс (из-за GC). У Ministral стабильнее: P99 — 22 мс, P99.9 — 35 мс.
Что будет через год?
Flash Mode съест еще больше задач. Модели на 500M параметров будут делать то, что сегодня делают 3B.
God Mode уйдет в нишевые применения: научные исследования, создание законов, медицинская диагностика.
Средний класс (7B-20B параметров) либо умрет, либо найдет новую нишу: возможно, станут "учителями" для маленьких моделей через дистилляцию.
Мой совет на февраль 2026: берите Liquid LFM 2.5 для high-throughput пайплайнов. Берите Ministral 3B для агентов и разнообразных задач. Все остальное — компромисс, который будет болеть головой через полгода.
И да, обновите свои инструкции по запуску Ministral. В версии 3B (декабрь 2025) появилась встроенная квантование до 4 бит без потерь.