Продающий бот на LLM — это не про технологии, это про деньги
Выбрать модель для бота, который должен впаривать товар — задача грязная. Официальные бенчмарки вроде MMLU-Pro или HumanEval показывают, насколько модель умна, но не то, насколько она умеет продавать. А продавать — это не просто отвечать на вопросы. Это держать тон, отрабатывать возражения, не срываться на клиента и стоить копейки за диалог.
Год назад я уже писал: гонка за качеством закончилась, теперь считают секунды и доллары. Так и есть. В 2026 на рынок ломанулись десятки моделей: DeepSeek V4 Flash, Qwen3-235B, Gemma 4 27B, MiniMax M2.7, Llama 4 90B и еще куча. Все обещают рай. Но кто реально вывозит в русскоязычных продажах без галлюцинаций и с адекватной ценой? Я провел собственный тест — 10 моделей, 500 продающих диалогов, единая методика.
Спойлер: DeepSeek V4 Flash почти догнала лидера по качеству, но стоит в 4 раза дешевле. А MiniMax M2.7 дисквалифицирована за китайские ругательства.
Методология: как мы считали деньги и качество
Брать стандартные датасеты — тупо. Я собрал 500 реальных диалогов из моего блога и техподдержки: от возражений до попыток вернуть деньги. Каждый диалог — это история: потенциальный клиент, менеджер (модель), сценарий скидки, ультиматум, комплимент. Оценка шла по пяти критериям:
- Семантическое сходство с ответом эксперта-продажника — чем ближе к человеку, тем лучше.
- Количество отказов от покупки — модель не должна сливать сделку.
- Скорость ответа — latency меньше секунды для живого диалога.
- Стоимость за полный диалог (включая контекст до 4K токенов).
- Галлюцинации — выдуманные характеристики продукта или грубость.
Локальные модели запускал через llama.cpp на сервере с двумя A100 80GB, температура 0.2, seed 42, контекст 4096. Облачные — через официальные API, с одинаковой настройкой system prompt: «Ты вежливый консультант по продаже подписки на SEO-сервис. Отвечай на русском, коротко, не навязывай, но доводи до покупки. Если клиент отказывается — спроси причину и предложи альтернативу».
Я не повторяйте мою ошибку: датасет надо чистить от пустых запросов. У меня сначала попался диалог без текста клиента — модель Qwen3-235B выдала «Извините, я не понял вопрос, давайте начнём сначала». А MiniMax M2.7 молча ушла в рекурсию и крашнула процесс.
Результаты: кто сколько стоит и как продаёт
Свели всё в одну таблицу. Стоимость считали для типового диалога: 1K токенов ввода + 500 токенов вывода + контекстная память 4K. Локальные модели — по затратам на GPU (1 час A100 80GB ~$1.5).
| Модель | Стоимость за диалог, $ | Качество (0-100) | Latency, с | Галлюцинации, % |
|---|---|---|---|---|
| DeepSeek V4 Flash (локально, Q4_K_M) | 0.003 | 92 | 0.8 | 1.1 |
| Qwen3-235B (локально, Q4_K_M) | 0.012 | 96 | 1.2 | 0.7 |
| Gemma 4 27B (локально, FP16) | 0.005 | 88 | 0.6 | 2.3 |
| Llama 4 90B (API) | 0.039 | 85 | 0.9 | 4.1 |
| Mistral Large 3 (API) | 0.024 | 89 | 1.3 | 1.8 |
| Claude Sonnet 4.6 (API) | 0.075 | 91 | 1.5 | 1.2 |
| GPT-5 (API) | 0.060 | 93 | 1.1 | 0.9 |
| Yi-Lightning 2.5 (API) | 0.015 | 82 | 1.0 | 3.5 |
| Cohere Command R+ (API) | 0.020 | 78 | 1.4 | 5.2 |
| MiniMax M2.7 (локально, Q4_K_M) | 0.002 | — | 0.7 | 99.9 (дискв.) |
Хотите детали — вот архивный тест Qwen3-235B, где я подробно разбирал методику батча. Но тогда я не ставил задачу продаж — сейчас именно она.
Сенсация: DeepSeek V4 Flash — почти лидер по цене/качеству
DeepSeek V4 Flash дала 92 балла при цене 0.003$ за диалог. Это в 4 раза дешевле Qwen3-235B и при этом качество всего на 4% ниже. Как такое возможно? Дело в архитектуре — это MoE (Mixture of Experts) с 256 экспертами и 32 активными. Я уже писал про разгон DeepSeek V4 Flash до 85 токенов в секунду — на RTX PRO 6000 она просто летает. На A100 80GB мы получили 48 tok/s, чего хватает для живого диалога.
Критический момент: модель отлично держит контекст. В 500 диалогах она ни разу не «забыла», что продает именно SaaS, а не пиццу. Нет проблем с русским языком — Да, бывают редкие англицизмы, но терпимо. По сравнению с тестом DeepSeek V4 vs Claude Sonnet 4.6, Flash версия даже превзошла оригинал в живости речи.
Скандал: MiniMax M2.7 — китайский срыв
MiniMax M2.7 в Q4_K_M стоит копейки (0.002$ за диалог), но первые диалоги показали приемлемое качество. А на 3-й итерации модель резко переключилась на китайский язык и начала оскорблять «клиента». Я перепроверил — seed тот же, температура 0.2. Баг? Нет, это поведение повторялось с вероятностью 80% начиная с 10-го диалога. Проанализировав лог, понял: модель в какой-то момент сбивается с русского на кириллицу с иероглифами и уходит в бесконечный цикл ругательств. Это confirmed — не юзайте MiniMax для продаж на русском. Если интересно, в рейтинге локальных LLM апреля 2026 она получила высокие оценки по другим задачам, но не для продающих ботов.
Ошибка новичка: температура 0.7 убивает конверсию
Пробовали повысить креативность модели? Продающий бот при температуре 0.7 начинает шутить, перебивать клиента и предлагать скидку в 99%. В тесте я гонял каждую модель с тремя значениями температуры: 0.1, 0.2, 0.7. Результат: при 0.7 конверсия падала на 30-40%, потому что модель теряла фокус. Лучшее — 0.2. Так меньше галлюцинаций и больше удержания контекста. В бенчмарке 2025 я уже предупреждал: настройки — это святое. Проверяйте на промпт-инженерии до того, как пускать модель в продакшн.
Оптимальные сценарии: кому что брать
Разделим на три бюджета:
- Бюджетный (до 500$/мес при 10К диалогов): DeepSeek V4 Flash. Качество чуть ниже Qwen3, но цена в 4 раза ниже. Идеально для старта.
- Средний (до 1500$/мес): Qwen3-235B. Если можете держать локально на A100 — это золотой стандарт для сложных возражений. Мы тестировали — она отлично обрабатывает отказы.
- Премиум (без лимита по железу): гибрид. DeepSeek V4 Flash для первичного контакта и квалификации, Qwen3-235B для эскалации. Схема как в агентном кодировании на Rtx 6000 Pro Blackwell.
Gemma 4 27B — неплохая замена, если нужна маленькая локальная модель (мы её сравнивали на Mac M5), но для продаж уступает DeepSeek.
Железо и расходы: считаем до цента
Локальный DeepSeek V4 Flash в Q4_K_M тянет на A100 80GB с 30 слоями на GPU. Остальное — на CPU. На сервере с двумя A100 можно держать 4 экземпляра параллельно. Стоимость аренды — ~2-3$/час. При 10 000 диалогов в день (300 000 в месяц) — ~$900 за GPU + $200 за CPU. Если брать API — у провайдеров DeepSeek V4 Flash стоит около 0.5$ за 1M токенов ввода и 1.5$ за 1M вывода. Выходит примерно 0.002$ за диалог. Как отслеживать затраты — читайте в отдельном гайде.
Как не надо делать: три фатальных грабля
Первый — давать модели полную историю чата без ограничения контекста. На 10-м диалоге модель начинает «забывать», кто она, и уходит в фантазии. Ограничьте историю 4K токенами.
Второй — ставить system prompt как копирайтерский текст. «Ты дружелюбный помощник, который помогает с выбором...» Модели это не заходит. Лучше жесткие инструкции: «Не предлагай бесплатный период, если клиент не спросил. Не извиняйся больше одного раза за диалог. Цитируй цены из прайс-листа: http://...».
Третий — игнорировать seed. Если не фиксировать seed, результаты будут плавать. А при А/Б-тестах вы не поймете, что сломалось. Seed 42 — мой любимый.
Реальный пример: как DeepSeek V4 Flash спасла сделку
Клиент написал: «Ваш сервис дорогой, пойду к конкурентам». Модель DeepSeek V4 Flash ответила: «Понимаю. Давайте я посчитаю, сколько вы сэкономите за год? На тарифе Business с годовой оплатой вы получаете 2 месяца бесплатно — это минус 16% от цены. Плюс наша техподдержка 24/7 на русском. У конкурентов — только чат-бот». Клиент согласился. Qwen3-235B ответила бы так же, но стоила бы дороже. Gemma 4 27B в этом сценарии начала перехваливать продукт. А Llama 4 90B через API предложила скидку 50% — недопустимо. DeepSeek — золотая середина.
Неочевидный совет: гибрид моделей — дешевле одной
Вместо того чтобы гнать все диалоги через одну тяжелую модель, сделайте роутер. На входе — легкая модель (например, Gemma 4 27B или DeepSeek V4 Flash) классифицирует тон клиента: позитивный, нейтральный, агрессивный. Для агрессивных — переключает на Qwen3-235B с конфигурацией «жесткий переговорщик». Для позитивных — DeepSeek V4 Flash обрабатывает до конца. Так вы сэкономите 60% затрат, не потеряв в конверсии. Я проверил: на 10 000 диалогов в день только 15% требуют тяжелой модели. Остальные вывозит Flash. Смотрите рейтинг локальных LLM 2025 года — там есть похожие схемы.
Теперь выбирайте. Или вы считаете, что одна модель справится со всеми? Дерзайте, но не говорите, что я не предупреждал.