Насколько достоверны утекшие данные о DeepSeek-V4?

Данные не подтверждены официально DeepSeek и основаны на скриншотах, циркулирующих в сообществе. Обычно такие утечки содержат как реальную информацию, так и маркетинговые преувеличения.

Когда ожидать релиз DeepSeek-V4?

На основе дат в документах (январь 2026) и типичного цикла разработки DeepSeek, релиз можно ожидать в марте-апреле 2026 года, но это только прогноз.

Будет ли DeepSeek-V4 дешевле GPT-5?

В утекших документах упоминается снижение стоимости inference на 40% относительно V3.2. Если это правда и DeepSeek сохранит ценовую политику, модель может стать самой доступной в своем классе.

Есть ли у DeepSeek-V4 мультимодальные возможности?

В утекших бенчмарках нет данных о vision-тестах. Возможно, мультимодальность будет реализована через отдельный модуль или эти тесты просто не попали в документы.

DeepSeek-V4 утечка бенчмарков: анализ данных на 15.02.2026

Слухи или реальность? Цифры, которые взорвали чаты

Вчера вечером, 14 февраля 2026 года, в закрытых AI-каналах начали появляться скриншоты. Сначала один. Потом три. К полуночи их было уже два десятка. Все показывали одно - внутренние бенчмарки DeepSeek-V4. Не официальные пресс-релизы, не маркетинговые презентации. Сухие, технические таблицы с результатами тестов, которые явно не предназначались для публики.

Важно: данные пока не подтверждены официально DeepSeek. Все цифры - из утекших документов, которые циркулируют в сообществе на 15.02.2026.

Что в этих таблицах? Цифры, которые заставляют задуматься

Если верить утечке, DeepSeek-V4 не просто улучшает предыдущую версию. Он переписывает правила игры для китайских моделей. В документах фигурируют три ключевых показателя:

MMLU (массовый многоуровневый тест понимания): 92.8% против 91.2% у GPT-5 и 90.7% у Claude-4
HumanEval (программирование): 89.3% против 87.1% у GPT-5
GSM8K (математические задачи): 95.1% - самый высокий показатель среди всех известных моделей

Цифры впечатляют. Особенно если учесть, что текущий флагман DeepSeek, V3.2, показывает на 8-12% более скромные результаты в этих же тестах.

Модель	MMLU	HumanEval	GSM8K	Дата оценки
DeepSeek-V4 (утечка)	92.8%	89.3%	95.1%	Январь 2026
GPT-5 (публичные данные)	91.2%	87.1%	93.8%	Декабрь 2025
Claude-4	90.7%	85.9%	94.2%	Декабрь 2025
DeepSeek-V3.2 (текущий)	84.5%	81.2%	87.3%	Ноябрь 2025

А где же мультимодальность? Главный вопрос

В утекших документах нет ни слова о работе с изображениями. Ни тестов на vision, ни сравнений с DeepEyesV2 или другими мультимодальными системами. Это странно. В 2026 году выпускать чистый текстовый флагман - все равно что выпускать телефон без камеры.

Два варианта: либо DeepSeek готовит отдельный vision-модуль (как это делают с V3.2-Speciale), либо тесты мультимодальности просто не попали в утекший документ. Первое более вероятно.

💡

Контекст: В гонке китайских LLM 2025-2026 годов мультимодальность стала обязательным условием. Kimi K3 уже показывает впечатляющие результаты работы с изображениями, MiniMax M2.2 тоже не отстает.

Стоимость - главная загадка

В документах есть намеки, но нет конкретики. Фраза "оптимизация для снижения inference cost на 40% относительно V3.2" встречается несколько раз. Если это правда, и если DeepSeek сохранит свою ценовую политику...

Помните AIME 2026? Там V3.2 стоил $0.09 за 1M токенов на входе. Снижение на 40% даст около $0.054. За модель, которая по заявленным показателям бьет GPT-5. Это звучит слишком хорошо, чтобы быть правдой.

Но есть нюанс: в документах упоминается "двухступенчатая система ценообразования". Возможно, базовый доступ будет дешевым, а за расширенные возможности (длинный контекст, reasoning, мультимодальность) придется платить отдельно.

А когда релиз? Все смотрят на GitHub

После той утечки с GitHub в январе, где появилась загадочная ссылка 'model1', сообщество ждет любых намеков. В утекших бенчмарках дата оценки - январь 2026. Обычно между финальным тестированием и релизом у DeepSeek проходит 1-3 месяца.

Мой прогноз: если данные настоящие, а не фейк, то анонс стоит ждать в марте-апреле 2026. Прямо перед конференцией CVPR, где обычно представляют крупные обновления.

Внимание: это только прогноз на основе утекших данных. Официальных дат от DeepSeek пока нет.

Что это значит для разработчиков? Реальная польза или маркетинг?

Смотрите. Даже если цифры слегка приукрашены (а в индустрии это норма), тренд ясен. Китайские модели догоняют и начинают обходить западные. Не по всем параметрам, но в ключевых областях - да.

Для обычного разработчика это значит одно: выбор станет больше. И дешевле. Если V3.2 уже работает локально на ноутбуке, то V4 с оптимизациями должен работать еще лучше.

Но есть подводный камень. В обновленном отчете DeepSeek-R1 на 86 страницах подробно описываются проблемы с reasoning в больших моделях. V4 явно будет использовать эти наработки. Вопрос - насколько хорошо они сработают в продакшене.

Стоит ли ждать? Мой вердикт

Ждать. Но без фанатизма.

Если вы сейчас используете GPT-5 или Claude-4 для production-задач - не бросайте все и не переходите на V4 сразу после релиза. Дайте месяц-два на обкатку. Посмотрите на реальные отзывы, а не на бенчмарки.

Если вы только выбираете модель для нового проекта - возможно, стоит подождать до апреля. Новый флагман DeepSeek действительно может изменить расстановку сил.

И главное - не верьте утечкам на 100%. В 2024 году тоже "утекли" бенчмарки одной модели. Цифры были фантастические. На релизе оказалось, что реальная производительность на 15% ниже. Маркетинг - он и в Китае маркетинг.

Но факт остается фактом: гонка ускоряется. И если утечка хотя бы наполовину правдива - нас ждет интересная весна 2026 года.

Утечка бенчмарков DeepSeek-V4: что известно и стоит ли ждать