Тест 10 LLM для продающих ботов на русском: DeepSeek V4 Flash vs Qwen3-235B — кто выгоднее? | AiManual
AiManual Logo Ai / Manual.
24 Июн 2026 Гайд

Сравнение LLM для продающих ботов на русском: тест 10 моделей и лучшие по цене/качеству (DeepSeek V4 Flash)

Сравнение 10 моделей LLM для продающих ботов на русском языке. Цена/качество, реальные цифры, скандал с MiniMax M2.7. DeepSeek V4 Flash — лучший выбор по соотно

Реклама
partv2

Продающий бот на LLM — это не про технологии, это про деньги

Выбрать модель для бота, который должен впаривать товар — задача грязная. Официальные бенчмарки вроде MMLU-Pro или HumanEval показывают, насколько модель умна, но не то, насколько она умеет продавать. А продавать — это не просто отвечать на вопросы. Это держать тон, отрабатывать возражения, не срываться на клиента и стоить копейки за диалог.

Год назад я уже писал: гонка за качеством закончилась, теперь считают секунды и доллары. Так и есть. В 2026 на рынок ломанулись десятки моделей: DeepSeek V4 Flash, Qwen3-235B, Gemma 4 27B, MiniMax M2.7, Llama 4 90B и еще куча. Все обещают рай. Но кто реально вывозит в русскоязычных продажах без галлюцинаций и с адекватной ценой? Я провел собственный тест — 10 моделей, 500 продающих диалогов, единая методика.

Спойлер: DeepSeek V4 Flash почти догнала лидера по качеству, но стоит в 4 раза дешевле. А MiniMax M2.7 дисквалифицирована за китайские ругательства.

Методология: как мы считали деньги и качество

Брать стандартные датасеты — тупо. Я собрал 500 реальных диалогов из моего блога и техподдержки: от возражений до попыток вернуть деньги. Каждый диалог — это история: потенциальный клиент, менеджер (модель), сценарий скидки, ультиматум, комплимент. Оценка шла по пяти критериям:

  • Семантическое сходство с ответом эксперта-продажника — чем ближе к человеку, тем лучше.
  • Количество отказов от покупки — модель не должна сливать сделку.
  • Скорость ответа — latency меньше секунды для живого диалога.
  • Стоимость за полный диалог (включая контекст до 4K токенов).
  • Галлюцинации — выдуманные характеристики продукта или грубость.

Локальные модели запускал через llama.cpp на сервере с двумя A100 80GB, температура 0.2, seed 42, контекст 4096. Облачные — через официальные API, с одинаковой настройкой system prompt: «Ты вежливый консультант по продаже подписки на SEO-сервис. Отвечай на русском, коротко, не навязывай, но доводи до покупки. Если клиент отказывается — спроси причину и предложи альтернативу».

Я не повторяйте мою ошибку: датасет надо чистить от пустых запросов. У меня сначала попался диалог без текста клиента — модель Qwen3-235B выдала «Извините, я не понял вопрос, давайте начнём сначала». А MiniMax M2.7 молча ушла в рекурсию и крашнула процесс.

Результаты: кто сколько стоит и как продаёт

Свели всё в одну таблицу. Стоимость считали для типового диалога: 1K токенов ввода + 500 токенов вывода + контекстная память 4K. Локальные модели — по затратам на GPU (1 час A100 80GB ~$1.5).

МодельСтоимость за диалог, $Качество (0-100)Latency, сГаллюцинации, %
DeepSeek V4 Flash (локально, Q4_K_M)0.003920.81.1
Qwen3-235B (локально, Q4_K_M)0.012961.20.7
Gemma 4 27B (локально, FP16)0.005880.62.3
Llama 4 90B (API)0.039850.94.1
Mistral Large 3 (API)0.024891.31.8
Claude Sonnet 4.6 (API)0.075911.51.2
GPT-5 (API)0.060931.10.9
Yi-Lightning 2.5 (API)0.015821.03.5
Cohere Command R+ (API)0.020781.45.2
MiniMax M2.7 (локально, Q4_K_M)0.0020.799.9 (дискв.)

Хотите детали — вот архивный тест Qwen3-235B, где я подробно разбирал методику батча. Но тогда я не ставил задачу продаж — сейчас именно она.

Сенсация: DeepSeek V4 Flash — почти лидер по цене/качеству

DeepSeek V4 Flash дала 92 балла при цене 0.003$ за диалог. Это в 4 раза дешевле Qwen3-235B и при этом качество всего на 4% ниже. Как такое возможно? Дело в архитектуре — это MoE (Mixture of Experts) с 256 экспертами и 32 активными. Я уже писал про разгон DeepSeek V4 Flash до 85 токенов в секунду — на RTX PRO 6000 она просто летает. На A100 80GB мы получили 48 tok/s, чего хватает для живого диалога.

Критический момент: модель отлично держит контекст. В 500 диалогах она ни разу не «забыла», что продает именно SaaS, а не пиццу. Нет проблем с русским языком — Да, бывают редкие англицизмы, но терпимо. По сравнению с тестом DeepSeek V4 vs Claude Sonnet 4.6, Flash версия даже превзошла оригинал в живости речи.

Скандал: MiniMax M2.7 — китайский срыв

MiniMax M2.7 в Q4_K_M стоит копейки (0.002$ за диалог), но первые диалоги показали приемлемое качество. А на 3-й итерации модель резко переключилась на китайский язык и начала оскорблять «клиента». Я перепроверил — seed тот же, температура 0.2. Баг? Нет, это поведение повторялось с вероятностью 80% начиная с 10-го диалога. Проанализировав лог, понял: модель в какой-то момент сбивается с русского на кириллицу с иероглифами и уходит в бесконечный цикл ругательств. Это confirmed — не юзайте MiniMax для продаж на русском. Если интересно, в рейтинге локальных LLM апреля 2026 она получила высокие оценки по другим задачам, но не для продающих ботов.

Ошибка новичка: температура 0.7 убивает конверсию

Пробовали повысить креативность модели? Продающий бот при температуре 0.7 начинает шутить, перебивать клиента и предлагать скидку в 99%. В тесте я гонял каждую модель с тремя значениями температуры: 0.1, 0.2, 0.7. Результат: при 0.7 конверсия падала на 30-40%, потому что модель теряла фокус. Лучшее — 0.2. Так меньше галлюцинаций и больше удержания контекста. В бенчмарке 2025 я уже предупреждал: настройки — это святое. Проверяйте на промпт-инженерии до того, как пускать модель в продакшн.

Оптимальные сценарии: кому что брать

Разделим на три бюджета:

  • Бюджетный (до 500$/мес при 10К диалогов): DeepSeek V4 Flash. Качество чуть ниже Qwen3, но цена в 4 раза ниже. Идеально для старта.
  • Средний (до 1500$/мес): Qwen3-235B. Если можете держать локально на A100 — это золотой стандарт для сложных возражений. Мы тестировали — она отлично обрабатывает отказы.
  • Премиум (без лимита по железу): гибрид. DeepSeek V4 Flash для первичного контакта и квалификации, Qwen3-235B для эскалации. Схема как в агентном кодировании на Rtx 6000 Pro Blackwell.

Gemma 4 27B — неплохая замена, если нужна маленькая локальная модель (мы её сравнивали на Mac M5), но для продаж уступает DeepSeek.

Железо и расходы: считаем до цента

Локальный DeepSeek V4 Flash в Q4_K_M тянет на A100 80GB с 30 слоями на GPU. Остальное — на CPU. На сервере с двумя A100 можно держать 4 экземпляра параллельно. Стоимость аренды — ~2-3$/час. При 10 000 диалогов в день (300 000 в месяц) — ~$900 за GPU + $200 за CPU. Если брать API — у провайдеров DeepSeek V4 Flash стоит около 0.5$ за 1M токенов ввода и 1.5$ за 1M вывода. Выходит примерно 0.002$ за диалог. Как отслеживать затраты — читайте в отдельном гайде.

Как не надо делать: три фатальных грабля

Первый — давать модели полную историю чата без ограничения контекста. На 10-м диалоге модель начинает «забывать», кто она, и уходит в фантазии. Ограничьте историю 4K токенами.

Второй — ставить system prompt как копирайтерский текст. «Ты дружелюбный помощник, который помогает с выбором...» Модели это не заходит. Лучше жесткие инструкции: «Не предлагай бесплатный период, если клиент не спросил. Не извиняйся больше одного раза за диалог. Цитируй цены из прайс-листа: http://...».

Третий — игнорировать seed. Если не фиксировать seed, результаты будут плавать. А при А/Б-тестах вы не поймете, что сломалось. Seed 42 — мой любимый.

Реальный пример: как DeepSeek V4 Flash спасла сделку

Клиент написал: «Ваш сервис дорогой, пойду к конкурентам». Модель DeepSeek V4 Flash ответила: «Понимаю. Давайте я посчитаю, сколько вы сэкономите за год? На тарифе Business с годовой оплатой вы получаете 2 месяца бесплатно — это минус 16% от цены. Плюс наша техподдержка 24/7 на русском. У конкурентов — только чат-бот». Клиент согласился. Qwen3-235B ответила бы так же, но стоила бы дороже. Gemma 4 27B в этом сценарии начала перехваливать продукт. А Llama 4 90B через API предложила скидку 50% — недопустимо. DeepSeek — золотая середина.

Неочевидный совет: гибрид моделей — дешевле одной

Вместо того чтобы гнать все диалоги через одну тяжелую модель, сделайте роутер. На входе — легкая модель (например, Gemma 4 27B или DeepSeek V4 Flash) классифицирует тон клиента: позитивный, нейтральный, агрессивный. Для агрессивных — переключает на Qwen3-235B с конфигурацией «жесткий переговорщик». Для позитивных — DeepSeek V4 Flash обрабатывает до конца. Так вы сэкономите 60% затрат, не потеряв в конверсии. Я проверил: на 10 000 диалогов в день только 15% требуют тяжелой модели. Остальные вывозит Flash. Смотрите рейтинг локальных LLM 2025 года — там есть похожие схемы.

Теперь выбирайте. Или вы считаете, что одна модель справится со всеми? Дерзайте, но не говорите, что я не предупреждал.

Подписаться на канал