Gemini 3.5 Flash vs DeepSeek V4 vs Tencent Hy3: цена/качество в production

Гонка вооружений в AI-production достигла точки кипения. Google выкатил Gemini 3.5 Flash — тот же быстрый Flash, но с доработанным reasoning и ценой, от которой у конкурентов дергается глаз. DeepSeek не отстает: V4 обещает открытость и копеечную стоимость. А Tencent внезапно выстрелил Hy3 — моделью, которая делает ставку на стабильность в продакшне. Кто из трех на самом деле выгоднее для реальных бизнес-нагрузок? Я перекопал документацию, тесты и собственный опыт, чтобы разобраться.

Дисклеймер: все цены и бенчмарки актуальны на 28.05.2026. Цифры производители любят округлять, так что проверяйте актуальные тарифы перед запуском в прод.

Коротко о каждом: кто есть кто

Gemini 3.5 Flash — эволюция того самого Gemini 3 Flash, который Google позиционировал как самый быстрый frontier-ИИ. В 3.5 подкрутили архитектуру внимания, снизили latency на 15% и расширили контекстное окно до 1.2 млн токенов. Цена — почти та же, что у младшей версии, но качество генерации кода подтянули.

DeepSeek V4 — китайский вундеркинд. В отличие от многих закрытых API, V4 имеет открытые веса (Mozilla Public License) и впечатляющие бенчмарки. Модель использует гибридный MoE с активацией только части экспертов, что радикально удешевляет инференс. На RTX PRO 6000 V4 разгоняется до 85 токенов/с — зверь.

Tencent Hy3 — темная лошадка. Гибридная архитектура (Hybrid) с акцентом на стабильность выходов: модель умеет самопроверяться на логические ошибки, что снижает галлюцинации в продакшне. Tencent агрессивно демпингует цены для азиатского рынка, но глобально API доступен через Tencent Cloud.

Цены: копейки к копейке

Самое больное для любого проджект-менеджера — бюджет на LLM. Вот как выглядят тарифы на 28.05.2026 (за 1 млн токенов):

Модель	Input ($/1M токенов)	Output ($/1M токенов)	Latency (p50, ms)	Контекст
Gemini 3.5 Flash	0.08	0.30	90-120	1.2M
DeepSeek V4	0.05	0.20	130-180	512K
Tencent Hy3	0.06	0.25	150-210	1M

С виду DeepSeek V4 — король демпинга. Но есть нюанс: цена указана для batch-режима с задержкой до 5 секунд. В реальном времени latency вырастает, а стоить начинает как Gemin. Tencent честно держит цену, но его архитектура требует больше времени на инференс.

Качество: бенчмарки не врут? Врут, но не сильно

Свежие тесты (май 2026) по MMLU-Pro, HumanEval и GSM8K показывают следующее:

Бенчмарк	Gemini 3.5 Flash	DeepSeek V4	Tencent Hy3
MMLU-Pro (reasoning)	82.3%	79.1%	80.5%
HumanEval (генерация кода)	88.7%	90.2%	85.4%
GSM8K (математика)	92.1%	91.5%	93.0%
Галлюцинации (SelfCheckGPT)	3.1%	4.8%	2.2%

DeepSeek V4 рвет в коде — неудивительно, команда много фокусировалась на CodeLlama и собственных бенчах. Gemini уверенно берет общим reasoning. Tencent — король стабильности: гибридная архитектура с самопроверкой режет галлюцинации почти вдвое против DeepSeek. Если ваш прод — финансовая отчетность или юридические документы, Tencent может окупиться даже при чуть более высокой цене.

Важно: DeepSeek V4 доступен только через их собственный API (с ограничением по регионам) или локальный деплой. Если у вас нет мощностей— придется плясать с бубном. А Google и Tencent дают облачные SLA с 99.9% uptime.

Production: стабильность, rate limits, зоны доступа

Теперь о наболевшем. Google в последнее время страдает от кризиса бюджетных моделей — то отключают старые дешевые эндпоинты, то рейт-лимиты режут. Gemini 3.5 Flash пока держится, но я бы не удивился, если через полгода условия поменяются. Tencent в этом плане консервативнее — тарифы фиксированы на год вперед. DeepSeek — вообще дикий запад: то бесплатный тир, то внезапные очереди. Для продакшена это риск.

По покрытию регионов: Google Cloud есть везде, Tencent — в основном Азия и США, DeepSeek — Китай и западное побережье США. Европейцам придется глотать доп. задержки.

Еще один момент — rate limits. Gemini 3.5 Flash в платном тарифе дает 2000 RPM (запросов в минуту), DeepSeek — 500, Tencent — 1000. Для high-load это критично.

Личные предпочтения: когда что брать

Нужен быстрый чат-бот с низкой задержкой и поддержкой длинных диалогов — берите Gemini 3.5 Flash. Он молниеносен, контекст до 1.2M, и интеграция с Vertex AI из коробки. Заплатите немного больше, но latency не подведет.
Пишете код, используете автодополнение и рефакторинг — DeepSeek V4 ваш выбор. Он дешевле, открыт, можно дообучить под свой стайлгайд. Но готовьтесь к кастомной инфраструктуре.
Строите автоматизацию для финансов, юриспруденции или медицины, где галлюцинации смерти подобны — Tencent Hy3. Гибридная архитектура даёт наименьший процент ошибок, а SLA вас не подведёт.
Хотите универсальное решение «поставил и забыл» — Gemini 3.5 Flash как самый сбалансированный.

Если же ваш бюджет трещит по швам, присмотритесь к Qwen3.5 Omni Plus от Alibaba — это ещё один китайский игрок с диким ценообразованием, но про него отдельный разговор.

Так кто же лидирует?

Если считать «лучшее соотношение цена/качество» как единую метрику, то Gemini 3.5 Flash выходит вперёд из-за скорости и экосистемы. Но DeepSeek V4 наступает на пятки, и если Google продолжит политику выкручивания рук пользователям, китайские модели перехватят инициативу. Tencent Hy3 пока остаётся нишевым выбором для тех, кто ставит надёжность выше цены.

Мой прогноз: через год мы будем платить за токен копейки, а топ продакшн-моделей будет полностью состоять из MoE-архитектур с открытыми весами. DeepSeek V4 уже сейчас даёт понять, что закрытые API — это роскошь, а не необходимость. Google придётся либо резать цены дальше, либо открывать Gemini 3.5 Flash под лицензией — иначе Tencent и DeepSeek сожрут рынок.

Подписаться на канал

Gemini 3.5 Flash против DeepSeek V4 и Tencent Hy3: кто реально дешевле и качественнее в production