DeepSeek-V4 утечка бенчмарков: анализ данных на 15.02.2026 | AiManual
AiManual Logo Ai / Manual.
15 Фев 2026 Новости

Утечка бенчмарков DeepSeek-V4: что известно и стоит ли ждать

Полный разбор утекших данных о DeepSeek-V4: реальные цифры, сравнение с GPT-5 и Claude-4, стоит ли ждать релиз.

Слухи или реальность? Цифры, которые взорвали чаты

Вчера вечером, 14 февраля 2026 года, в закрытых AI-каналах начали появляться скриншоты. Сначала один. Потом три. К полуночи их было уже два десятка. Все показывали одно - внутренние бенчмарки DeepSeek-V4. Не официальные пресс-релизы, не маркетинговые презентации. Сухие, технические таблицы с результатами тестов, которые явно не предназначались для публики.

Важно: данные пока не подтверждены официально DeepSeek. Все цифры - из утекших документов, которые циркулируют в сообществе на 15.02.2026.

Что в этих таблицах? Цифры, которые заставляют задуматься

Если верить утечке, DeepSeek-V4 не просто улучшает предыдущую версию. Он переписывает правила игры для китайских моделей. В документах фигурируют три ключевых показателя:

  • MMLU (массовый многоуровневый тест понимания): 92.8% против 91.2% у GPT-5 и 90.7% у Claude-4
  • HumanEval (программирование): 89.3% против 87.1% у GPT-5
  • GSM8K (математические задачи): 95.1% - самый высокий показатель среди всех известных моделей

Цифры впечатляют. Особенно если учесть, что текущий флагман DeepSeek, V3.2, показывает на 8-12% более скромные результаты в этих же тестах.

Модель MMLU HumanEval GSM8K Дата оценки
DeepSeek-V4 (утечка) 92.8% 89.3% 95.1% Январь 2026
GPT-5 (публичные данные) 91.2% 87.1% 93.8% Декабрь 2025
Claude-4 90.7% 85.9% 94.2% Декабрь 2025
DeepSeek-V3.2 (текущий) 84.5% 81.2% 87.3% Ноябрь 2025

А где же мультимодальность? Главный вопрос

В утекших документах нет ни слова о работе с изображениями. Ни тестов на vision, ни сравнений с DeepEyesV2 или другими мультимодальными системами. Это странно. В 2026 году выпускать чистый текстовый флагман - все равно что выпускать телефон без камеры.

Два варианта: либо DeepSeek готовит отдельный vision-модуль (как это делают с V3.2-Speciale), либо тесты мультимодальности просто не попали в утекший документ. Первое более вероятно.

💡
Контекст: В гонке китайских LLM 2025-2026 годов мультимодальность стала обязательным условием. Kimi K3 уже показывает впечатляющие результаты работы с изображениями, MiniMax M2.2 тоже не отстает.

Стоимость - главная загадка

В документах есть намеки, но нет конкретики. Фраза "оптимизация для снижения inference cost на 40% относительно V3.2" встречается несколько раз. Если это правда, и если DeepSeek сохранит свою ценовую политику...

Помните AIME 2026? Там V3.2 стоил $0.09 за 1M токенов на входе. Снижение на 40% даст около $0.054. За модель, которая по заявленным показателям бьет GPT-5. Это звучит слишком хорошо, чтобы быть правдой.

Но есть нюанс: в документах упоминается "двухступенчатая система ценообразования". Возможно, базовый доступ будет дешевым, а за расширенные возможности (длинный контекст, reasoning, мультимодальность) придется платить отдельно.

А когда релиз? Все смотрят на GitHub

После той утечки с GitHub в январе, где появилась загадочная ссылка 'model1', сообщество ждет любых намеков. В утекших бенчмарках дата оценки - январь 2026. Обычно между финальным тестированием и релизом у DeepSeek проходит 1-3 месяца.

Мой прогноз: если данные настоящие, а не фейк, то анонс стоит ждать в марте-апреле 2026. Прямо перед конференцией CVPR, где обычно представляют крупные обновления.

Внимание: это только прогноз на основе утекших данных. Официальных дат от DeepSeek пока нет.

Что это значит для разработчиков? Реальная польза или маркетинг?

Смотрите. Даже если цифры слегка приукрашены (а в индустрии это норма), тренд ясен. Китайские модели догоняют и начинают обходить западные. Не по всем параметрам, но в ключевых областях - да.

Для обычного разработчика это значит одно: выбор станет больше. И дешевле. Если V3.2 уже работает локально на ноутбуке, то V4 с оптимизациями должен работать еще лучше.

Но есть подводный камень. В обновленном отчете DeepSeek-R1 на 86 страницах подробно описываются проблемы с reasoning в больших моделях. V4 явно будет использовать эти наработки. Вопрос - насколько хорошо они сработают в продакшене.

Стоит ли ждать? Мой вердикт

Ждать. Но без фанатизма.

Если вы сейчас используете GPT-5 или Claude-4 для production-задач - не бросайте все и не переходите на V4 сразу после релиза. Дайте месяц-два на обкатку. Посмотрите на реальные отзывы, а не на бенчмарки.

Если вы только выбираете модель для нового проекта - возможно, стоит подождать до апреля. Новый флагман DeepSeek действительно может изменить расстановку сил.

И главное - не верьте утечкам на 100%. В 2024 году тоже "утекли" бенчмарки одной модели. Цифры были фантастические. На релизе оказалось, что реальная производительность на 15% ниже. Маркетинг - он и в Китае маркетинг.

Но факт остается фактом: гонка ускоряется. И если утечка хотя бы наполовину правдива - нас ждет интересная весна 2026 года.