DeepSeek новая модель 2026: утечка в GitHub, анализ кода и FlashMLA

Вчера вечером, 19 января 2026 года, кто-то из команды DeepSeek, вероятно, слишком поздно пил кофе. Или слишком рано начал. Потому что в официальном GitHub-репозитории появился коммит, который выглядит как классическая «ошибка перед релизом» - та самая, из- которой потом полдня откатывают изменения и ищут виноватого.

Речь идет о файле конфигурации, где среди прочего затесалась строчка, заставившая сообщество open-source AI зашевелиться: ссылка на некий 'model1', которой до этого момента не существовало в публичном доступе.

Что именно нашли?

Не нужно быть детективом, чтобы увидеть странность. В одном из конфигурационных файлов, обновленных 19.01.2026, появилась новая секция загрузки моделей. Рядом с привычными путями к DeepSeek-V3.2 (нынешний флагман на начало 2026) и DeepSeek-R1 (их модель рассуждений) вписана третья запись:

model_base_url: "https://cdn.deepseek.com/models/model1/"

Проблема в том, что перейти по этой ссылке нельзя. 404. Но сам факт ее появления в конфигурационном файле, который используется для инициализации инференса, говорит о том, что инфраструктура для этой модели уже готовится.

И это не просто «очередное обновление». Судя по структуре URL, это отдельная модель, а не минорная версия существующей. В DeepSeek-V3.2 используется путь /models/v3.2/. Здесь же - /model1/. Более общее имя. Как будто это что-то фундаментально новое.

Контекст: FlashMLA и шепотки из Пекина

Эта находка идеально ложится на слухи, которые циркулируют последние две недели. В конце декабря 2025 в нескольких исследовательских чатах упоминалась новая архитектура под кодовым названием FlashMLA (Multi-Latent Attention). Говорили, что это ответ DeepSeek на ожидаемый GPT-5 от OpenAI и Gemini Ultra Next от Google.

Основная фишка FlashMLA, если верить утечкам - радикальное снижение вычислительных затрат при сохранении контекста в 1 млн токенов. Не 128к, не 256к, а именно миллион. Для сравнения: текущий DeepSeek-V3.2 работает с 128к контекстом, и это уже считается прорывом для локального запуска, как мы писали в материале про локальный запуск DeepSeek-V3.2.

💡

Интересно, что в том же коммите есть изменения, связанные с оптимизацией памяти для длинных последовательностей. Косвенное подтверждение работы с extended context.

Но самое интересное - временные метки. Коммит с 'model1' сделан 19 января. А ровно неделю назад, 12 января, на Hugging Face появился датасет с пометкой "DeepSeek-Pretrain-Extended", размером в 2.3 ТБ. Совпадение? Не думаю. Обычно такие датасеты появляются за пару месяцев до анонса новой модели.

Что это может быть? Три варианта

Сообщество разделилось на три лагеря. Каждый со своей теорией.

DeepSeek-V4. Наиболее очевидный вариант. Прямой наследник V3.2, но с улучшенной архитектурой, бóльшим контекстом и, возможно, мультимодальностью. Хотя о мультимодальности DeepSeek пока молчат, в отличие от того же DeepEyesV2, который специализируется на анализе изображений.
Специализированная модель для кода. DeepSeek уже показали себя сильными в программировании. Новая модель может быть заточена именно под эту задачу, с улучшенным пониманием контекста кодовой базы. Это перекликается с нашим материалом о будущем программирования с ИИ.
Модель рассуждений следующего поколения. DeepSeek-R1 уже удивила своими способностями к reasoning. 'model1' может быть R2 или чем-то подобным, но с интеграцией в основную линейку продуктов.

Почему именно сейчас? Конкурентный гон

2026 год начинается с адского темпа в AI. OpenAI тихо тестирует что-то за закрытыми дверями (намеки на это есть в их API логах). Google в Сингапуре разворачивает новый исследовательский хаб, как мы писали ранее. А китайские компании, в частности DeepSeek, не хотят отставать.

Есть и более прагматичная причина. Рынок open-source моделей становится все плотнее. Появились темные лошадки вроде Apriel v1.6, которые показывают неожиданно хорошие результаты на небольших размерах. Чтобы оставаться лидером, нужно постоянно выпускать что-то новое.

Модель	Контекст (токенов)	Размер (параметры)	Статус на 20.01.2026
DeepSeek-V3.2	128K	~236B (MoE)	Актуальный флагман
DeepSeek-R1	64K	~67B	Для reasoning задач
model1 (предпол.)	1M+ (слухи)	Неизвестно	В разработке/тестировании

Что делать, если хочется следить за ситуацией?

Во-первых, не паниковать. Утечки в GitHub - обычное дело. Иногда они ведут к реальному релизу через неделю, иногда код просто удаляют, и все затихает на полгода.

Но если вы хотите быть в курсе:

Следите за официальным репозиторием DeepSeek на GitHub. Особенно за веткой main и pull requests. Именно там появляются такие «артефакты».
Используйте инструменты вроде Models Explorer для мониторинга новых моделей на Hugging Face. Если 'model1' появится, она скорее всего будет там.
Читайте исследовательские отчеты. DeepSeek любят публиковать подробные технические отчеты, как в случае с DeepSeek-R1. Если выйдет новая модель, отчет появится первым.

И последнее. Будьте осторожны с ранними «утечками» весов моделей. Помните историю с зараженными моделями на Hugging Face? Как мы писали, безопасность в open-source AI - не шутка. Если вдруг 'model1' появится на каком-то сомнительном форуме раньше официального релиза, десять раз подумайте, прежде чем качать.

Мой прогноз? Официальный анонс мы увидим в течение февраля 2026. Слишком много косвенных признаков. И слишком горячая конкурентная среда, чтобы сидеть сложа руки. DeepSeek уже показали, что могут удивлять. Судя по всему, они готовят новый сюрприз.

А пока ссылка https://cdn.deepseek.com/models/model1/ возвращает 404. Но ненадолго. Держу пари.

GitHub DeepSeek просочился: загадочная ссылка 'model1' намекает на новый флагман

Что именно нашли?

Контекст: FlashMLA и шепотки из Пекина

Что это может быть? Три варианта

Почему именно сейчас? Конкурентный гон

Что делать, если хочется следить за ситуацией?

Подписывайтесь на наш канал!