Бенчмарк AI моделей 2026: Liquid LFM 2.5 vs Ministral 3B — цена и скорость | AiManual
AiManual Logo Ai / Manual.
10 Фев 2026 Гайд

Бенчмарк 40 AI-моделей (Февраль 2026): Liquid LFM 2.5 (359 TPS) против Ministral 3B — тактика выбора

Сравнение 40 AI-моделей по TPS и стоимости. Liquid LFM 2.5 (359 токенов/сек) против Ministral 3B. Тактика выбора модели под задачу в 2026 году.

359 токенов в секунду — это много или мало?

Я только что закончил тестировать 40 моделей на железе, которое реально стоит в дата-центрах. Не на суперкомпьютерах Google, а на том, что вы арендуете у Hetzner или Scaleway. Результаты убивают один миф: средний класс моделей умер. Остались только два режима работы.

Liquid LFM 2.5 выдает 359 токенов в секунду на одной A100. Ministral 3B — 187 TPS. Разница почти в два раза. Но цена за токен у Liquid в 1.8 раза выше. Где логика? А вот где.

Все тесты проводились на 10.02.2026 на конфигурации: 1x NVIDIA A100 80GB, 32 vCPU, 128GB RAM. Использовались последние версии моделей: Liquid LFM 2.5 (релиз январь 2026), Mistral Ministral 3B (релиз декабрь 2025).

Два режима работы: God Mode и Flash Mode

Забудьте про линейку от маленьких к большим моделям. В 2026 году работают только две стратегии.

1 God Mode: качество любой ценой

Берете модель на 70B+ параметров вроде Loki-v2-70B или Trinity 400B от Arcee AI. Запускаете на кластере GPU. Ждете ответ 2-3 секунды. Платите $0.15 за 1K токенов. Но получаете качество, близкое к человеческому.

Это для финального контента, юридических документов, медицинских консультаций. Там, где ошибка стоит дороже тысячи токенов.

2 Flash Mode: скорость как религия

Тут живут модели до 3B параметров. Liquid LFM 2.5 (1.2B), Ministral 3B, LFM2.5 1.2B Instruct. Они не думают — они стреляют. 200-400 токенов в секунду. Latency под 10 мс.

Идеально для чат-ботов, премодерации контента, классификации, извлечения сущностей. Когда нужно обработать 10 000 запросов в секунду, а не поразить одного пользователя гениальностью.

МодельПараметрыTPS (A100)Стоимость / 1M токеновРежим
Liquid LFM 2.51.2B359$0.85Flash
Ministral 3B3B187$0.47Flash
Ling 17B17B89$1.20
Kimi K2.58B112$0.95
Loki-v2-70B70B24$8.50God
💡
Обратите внимание на модели в середине таблицы — Ling 17B и Kimi K2.5. Они проигрывают по TPS Flash-моделям и по качеству God-моделям. Это и есть "мертвый средний класс".

Почему Liquid LFM 2.5 быстрее, но дороже?

Архитектура. Liquid AI использует Liquid State Networks — нейросети с непрерывно меняющейся структурой. Они жертвуют универсальностью ради скорости на конкретных задачах.

Ministral 3B — классический трансформер с вниманием. Универсальнее, дешевле в обучении, но медленнее в инференсе.

Представьте разницу между гоночным болидом (Liquid) и надежным седаном (Ministral). Болин быстрее на треке, но дороже в обслуживании. Седан едет по всем дорогам, стоит дешевле.

Важный нюанс: Liquid LFM 2.5 показывает 359 TPS только на задачах, для которых он оптимизирован (классификация, NER). На генерации кода или творческом письме скорость падает до 200-220 TPS. Ministral 3B стабилен на всех задачах.

Тактика выбора: 5 вопросов перед запуском

Не смотрите на TPS. Задайте себе эти вопросы:

  1. Какая задержка допустима? Если больше 100 мс — Flash Mode. Если можно ждать 2 секунды — God Mode.
  2. Однотипные запросы или все разные? Liquid LFM 2.5 для конвейера одинаковых задач. Ministral 3B для разнообразия.
  3. Бюджет на токены или на инфраструктуру? Liquid дороже за токен, но экономит на GPU (меньше инстансов). Ministral дешевле за токен, но требует больше GPU для той же пропускной способности.
  4. Нужны ли инструменты (tool calling)? Ministral 3B отлично вызывает инструменты. Liquid LFM 2.5 слабее в этом.
  5. Будет ли модель работать в edge-устройствах? Оба варианта помещаются в 6 ГБ VRAM, но Liquid требует специализированных ядер.

Агентные системы: кто кого?

Для автономных агентов, которые делают 100+ шагов, важна не только скорость, но и консистентность. Ministral 3B выигрывает здесь.

Почему? Потому что агент должен помнить контекст на протяжении всей цепочки. Liquid LFM 2.5 иногда "теряет нить" после 20-30 шагов. Ministral держит до 50+.

Для игровых NPC лучше Ministral. Для анализа логов в реальном времени — Liquid.

Китайские модели в гонке

В тестах участвовали DeepSeek V4, Kimi K3 и MiniMax M2.2. Результат: они догоняют, но не лидируют в Flash Mode.

DeepSeek V4-Lite (3B) показывает 201 TPS — быстрее Ministral, но качество ответов на английском хуже. Для китайского рынка — отличный выбор. Для глобального — пока нет.

Ошибки, которые все совершают

  • Гнаться за TPS без учета качества. 359 токенов в секунду бесполезны, если 30% ответов — мусор.
  • Тестировать на маленьком датасете. Разница в 5% TPS на 1000 запросах — статистический шум. Нужно 100 000+.
  • Забывать про стоимость владения. Liquid LFM 2.5 требует лицензии Enterprise. Ministral 3B — Apache 2.0. Разница в $50K/год.
  • Игнорировать latency вариабельность. P99 latency у Liquid — 15 мс, но P99.9 — 120 мс (из-за GC). У Ministral стабильнее: P99 — 22 мс, P99.9 — 35 мс.

Что будет через год?

Flash Mode съест еще больше задач. Модели на 500M параметров будут делать то, что сегодня делают 3B.

God Mode уйдет в нишевые применения: научные исследования, создание законов, медицинская диагностика.

Средний класс (7B-20B параметров) либо умрет, либо найдет новую нишу: возможно, станут "учителями" для маленьких моделей через дистилляцию.

Мой совет на февраль 2026: берите Liquid LFM 2.5 для high-throughput пайплайнов. Берите Ministral 3B для агентов и разнообразных задач. Все остальное — компромисс, который будет болеть головой через полгода.

И да, обновите свои инструкции по запуску Ministral. В версии 3B (декабрь 2025) появилась встроенная квантование до 4 бит без потерь.