DeepSeek 1.5T-2T параметров: утечка, релиз и отличия API | 2026

Утечка, которую не смогли стереть

Скриншоты из внутреннего чата DeepSeek взорвали все тематические форумы на прошлой неделе. Сотрудник, чье имя быстро заминусили, написал три слова: "Training 1.5T–2T. Q2 release." Сообщение удалили за 15 минут, но интернет, как известно, ничего не забывает.

Инсайдер из команды обучения моделей подтвердил TechAI: релиз новой флагманской модели, условно именуемой "DeepSeek-V5" или "DeepSeek-Mega", намечен на конец апреля – начало июня 2026 года. Это не официальный анонс, а утечка, поэтому даты могут сдвигаться.

Зачем нам еще один гигант, если DeepSeek-V4 и так неплохо справляется с кодом? Ответ прост – масштаб. 1.5 триллиона параметров – это не линейный рост от текущих 670 миллиардов у V4. Это качественный скачок в reasoning-способностях и, что важно, в экономике запуска.

1.5 триллиона? Попробуйте два

Цифра 1.5T–2T – не случайный диапазон. По данным из того же чата, архитектура использует гибридный подход Mixture of Experts (MoE). Активных параметров на один forward pass будет "всего" 200–250 миллиардов. Звучит как обман, но именно так работает экономика гигантских моделей.

💡

Если вы думаете, что 2 триллиона параметров – это только про качество ответов, вы ошибаетесь. Главный козырь – стоимость токена. Внутренние бенчмарки, частично упомянутые в прошлой утечке, показывают, что при равной или лучшей производительности на MMLU и HumanEval, цена за 1M входных токенов может быть на 15-20% ниже, чем у текущего V4.

Почему это важно? Потому что битва моделей в 2026 году – это уже не только хитрые бенчмарки, а цена эксплуатации. Проект, который сегодня платит $10 000 в месяц за GPT-5 API, завтра может сэкономить две тысячи, перейдя на DeepSeek. Мелочь? Для стартапа – целое состояние.

API против Web: где прячут фичи

Вот тут начинается самое интересное. Согласно тем же слитым данным, новая модель будет доступна в трех формах: через официальный веб-чат, через публичный API (как у V4) и через "партнерский" API с расширенными возможностями.

Веб-версия: Бесплатная (пока), с лимитом 50 запросов в час. Будет использовать quantization до 8-бит, поэтому reasoning может быть чуть медленнее. Контекстное окно – стандартные 128K токенов.
Публичный API: Платный, с пословной тарификацией. Точная цена неизвестна, но ожидается на уровне $0.12 за 1M входных токенов. Контекст – 128K, но с возможностью расширения до 512K по специальному запросу. Поддерживается streaming, JSON mode, и, что ново, parallel tool calling – модель сможет запускать несколько функций API одновременно.
Партнерский/Enterprise API: Вот где скрывается магия. Полноценная 16-битная версия модели, контекстное окно в 1 миллион токенов с первого дня, доступ к сырым логам вероятностей (logprobs) и кастомная fine-tuning поддержка. Цена? "Обсуждается индивидуально". Читай: готовьте шестизначные бюджеты.

Разработчикам, которые уже работают с DeepSeek-V3.2 API, стоит готовиться к миграции. Старые endpoint'ы будут работать, но все новые фичи, включая улучшенную детекцию структуры кода, появятся только у новой модели.

А что с локальным запуском? Забудьте

Нет, серьезно. Модель на 1.5 триллиона параметров, даже с активными 200B, не предназначена для вашего сервера. Или даже для вашего дата-центра. Руководства по локальному запуску для R1 тут не помогут. Для инференса потребуется минимум 8x H100 или их эквивалентов следующего поколения. Мечтать о чем-то подобном на ноутбуке, как с DeepSeek-V3.2, не стоит.

DeepSeek четко делит рынок: маленькие эффективные модели (V3.2 и V3.2-Speciale) – для локального использования, гиганты – только через облако. Это smart-ход. Они не пытаются угнаться за MiMo V2 в компактности или за Apriel v1.6 в niche-бенчмарках. Их цель – корпоративный облачный рынок, где сейчас правят GPT-5 и Gemini Ultra.

Кому это вообще нужно?

Если вы делаете еще один чат-бот для поддержки, эта модель – overkill. Абсолютный избыток. Но если ваш бизнес – это тонны технической документации, анализ миллионов строк legacy-кода, или реально сложные цепочки reasoning (финансовое моделирование, научные исследования), то разница между 85% и 92% accuracy на специализированных датасетах – это разница между "работает" и "спасает команду из 20 аналитиков".

Стоит ли ждать релиза, прежде чем начинать новый проект? Зависит от сроков. Если вы запускаетесь через полгода – да, ждите. Если нужно решение вчера – смотрите в сторону Arcee Trinity или LG EXAONE 236B. Они уже здесь, их API стабильны, а цена известна.

Главный вопрос не в том, сможет ли DeepSeek сделать модель на 2 триллиона параметров. Сможет. Вопрос в том, смогут ли они заставить ее работать дешевле конкурентов. Именно на этом прогорели десятки стартапов в 2024-2025 годах.

Мой прогноз? Они выпустят модель. Она будет чуть лучше GPT-5 в coding-задачах и чуть дешевле в эксплуатации. Но магия, если она случится, будет не в размере, а в деталях реализации API. Тот самый parallel tool calling и работа с гигантским контекстом – вот что может перевернуть рынок enterprise-автоматизации. Если, конечно, их инженеры справятся с латентностью.

А пока совет простой: не продавайте свои H100. Они еще понадобятся – если не для запуска, то для тестирования того, что вам продадут.

Подписаться на канал

DeepSeek готовит гигантскую модель на 1.5T–2T параметров: что известно о релизе и отличиях API

Утечка, которую не смогли стереть

1.5 триллиона? Попробуйте два

API против Web: где прячут фичи

А что с локальным запуском? Забудьте

Кому это вообще нужно?

Подписывайтесь на наш канал!