Слухи или реальность? Цифры, которые взорвали чаты
Вчера вечером, 14 февраля 2026 года, в закрытых AI-каналах начали появляться скриншоты. Сначала один. Потом три. К полуночи их было уже два десятка. Все показывали одно - внутренние бенчмарки DeepSeek-V4. Не официальные пресс-релизы, не маркетинговые презентации. Сухие, технические таблицы с результатами тестов, которые явно не предназначались для публики.
Важно: данные пока не подтверждены официально DeepSeek. Все цифры - из утекших документов, которые циркулируют в сообществе на 15.02.2026.
Что в этих таблицах? Цифры, которые заставляют задуматься
Если верить утечке, DeepSeek-V4 не просто улучшает предыдущую версию. Он переписывает правила игры для китайских моделей. В документах фигурируют три ключевых показателя:
- MMLU (массовый многоуровневый тест понимания): 92.8% против 91.2% у GPT-5 и 90.7% у Claude-4
- HumanEval (программирование): 89.3% против 87.1% у GPT-5
- GSM8K (математические задачи): 95.1% - самый высокий показатель среди всех известных моделей
Цифры впечатляют. Особенно если учесть, что текущий флагман DeepSeek, V3.2, показывает на 8-12% более скромные результаты в этих же тестах.
| Модель | MMLU | HumanEval | GSM8K | Дата оценки |
|---|---|---|---|---|
| DeepSeek-V4 (утечка) | 92.8% | 89.3% | 95.1% | Январь 2026 |
| GPT-5 (публичные данные) | 91.2% | 87.1% | 93.8% | Декабрь 2025 |
| Claude-4 | 90.7% | 85.9% | 94.2% | Декабрь 2025 |
| DeepSeek-V3.2 (текущий) | 84.5% | 81.2% | 87.3% | Ноябрь 2025 |
А где же мультимодальность? Главный вопрос
В утекших документах нет ни слова о работе с изображениями. Ни тестов на vision, ни сравнений с DeepEyesV2 или другими мультимодальными системами. Это странно. В 2026 году выпускать чистый текстовый флагман - все равно что выпускать телефон без камеры.
Два варианта: либо DeepSeek готовит отдельный vision-модуль (как это делают с V3.2-Speciale), либо тесты мультимодальности просто не попали в утекший документ. Первое более вероятно.
Стоимость - главная загадка
В документах есть намеки, но нет конкретики. Фраза "оптимизация для снижения inference cost на 40% относительно V3.2" встречается несколько раз. Если это правда, и если DeepSeek сохранит свою ценовую политику...
Помните AIME 2026? Там V3.2 стоил $0.09 за 1M токенов на входе. Снижение на 40% даст около $0.054. За модель, которая по заявленным показателям бьет GPT-5. Это звучит слишком хорошо, чтобы быть правдой.
Но есть нюанс: в документах упоминается "двухступенчатая система ценообразования". Возможно, базовый доступ будет дешевым, а за расширенные возможности (длинный контекст, reasoning, мультимодальность) придется платить отдельно.
А когда релиз? Все смотрят на GitHub
После той утечки с GitHub в январе, где появилась загадочная ссылка 'model1', сообщество ждет любых намеков. В утекших бенчмарках дата оценки - январь 2026. Обычно между финальным тестированием и релизом у DeepSeek проходит 1-3 месяца.
Мой прогноз: если данные настоящие, а не фейк, то анонс стоит ждать в марте-апреле 2026. Прямо перед конференцией CVPR, где обычно представляют крупные обновления.
Внимание: это только прогноз на основе утекших данных. Официальных дат от DeepSeek пока нет.
Что это значит для разработчиков? Реальная польза или маркетинг?
Смотрите. Даже если цифры слегка приукрашены (а в индустрии это норма), тренд ясен. Китайские модели догоняют и начинают обходить западные. Не по всем параметрам, но в ключевых областях - да.
Для обычного разработчика это значит одно: выбор станет больше. И дешевле. Если V3.2 уже работает локально на ноутбуке, то V4 с оптимизациями должен работать еще лучше.
Но есть подводный камень. В обновленном отчете DeepSeek-R1 на 86 страницах подробно описываются проблемы с reasoning в больших моделях. V4 явно будет использовать эти наработки. Вопрос - насколько хорошо они сработают в продакшене.
Стоит ли ждать? Мой вердикт
Ждать. Но без фанатизма.
Если вы сейчас используете GPT-5 или Claude-4 для production-задач - не бросайте все и не переходите на V4 сразу после релиза. Дайте месяц-два на обкатку. Посмотрите на реальные отзывы, а не на бенчмарки.
Если вы только выбираете модель для нового проекта - возможно, стоит подождать до апреля. Новый флагман DeepSeek действительно может изменить расстановку сил.
И главное - не верьте утечкам на 100%. В 2024 году тоже "утекли" бенчмарки одной модели. Цифры были фантастические. На релизе оказалось, что реальная производительность на 15% ниже. Маркетинг - он и в Китае маркетинг.
Но факт остается фактом: гонка ускоряется. И если утечка хотя бы наполовину правдива - нас ждет интересная весна 2026 года.