Осторожно: контекст на миллион токенов

Знаете, что меня порядком бесит в современных LLM? Либо они умные, но с памятью как у рыбки — забывают, что написали в начале диалога через 4K токенов. Либо пытаются удержать контекст, но начинают тормозить так, что хочется разбить монитор. А потом приходит DeepSeek V4 и говорит: «Держите 1 миллион токенов, open-source, и да, это работает».

Китайцы снова выстрелили. На этот раз — DeepSeek V4 с архитектурой Hybrid Attention и MoE scaling. И самое крутое — они выложили веса. Не демку, не API с дозированным доступом, а полноценную открытую модель, которую можно утащить к себе на сервер. Давайте разберем, как они это сделали и зачем вам такой зверь.

Важно: DeepSeek V4 — это не одна модель, а семейство: Flash (1.6T параметров, 32B активных), Pro (полная версия) и кастомные сборки для локального инференса. Вся линейка использует единую архитектуру.

Секретный соус: Hybrid Attention + MoE

Если отбросить маркетинг, то главная инновация DeepSeek V4 — это гибридное внимание. Вместо того чтобы гонять весь контекст через полный attention (что при 1M токенов убило бы любой GPU), они делят его на две части:

Скользящее окно (sliding window) — для локального контекста, где каждый токен «видит» только ближайшие 4K соседей. Экономим FLOPs.
Глобальное разреженное внимание — ключевые токены (selected via lightweight router) получают полный attention к «якорным» позициям (anchor tokens). Это позволяет модели «заглядывать» в начало документа.

В результате — эффективный KV cache, который не выносит мозг. Flash Attention 3 тут используется по полной, но DeepSeek добавили сверху собственные оптимизации для разреженного доступа. И это работает. На практике вы можете скормить модели «Войну и мир» (около 500K токенов) и получить связный анализ — без потерь в начале.

А MoE (Mixture of Experts) — это классика для китайских моделей последнего поколения. MoE — архитектурный стандарт, и DeepSeek довели его до ума: 1.6 триллиона параметров, но активны только 32B на каждом токене. Это как нанять армию экспертов, но платить только тем, кто реально работает. Жрет память, но не GPU-часы.

Сравнение с ближайшими конкурентами

Модель	Контекст	Архитектура	Активные параметры	Open source	Скорость (токен/с на A100)
DeepSeek V4 Flash	1M	Hybrid Attention + MoE	32B	Да	~45
Qwen2.5-72B	128K	Dense Transformer	72B	Да	~50
Llama 3 405B (FP8)	128K	Dense + GQA	405B	Да	~20
Mixtral 8x22B	32K	Sparse MoE	39B	Да	~60

Таблица наглядно показывает: DeepSeek V4 выигрывает по длине контекста с огромным отрывом, но проигрывает по скорости чистому инференсу. Зато MoE позволяет держать 1.6T параметров на диске, а в RAM — только 32B. С глубокой квантизацией (4-bit) модель влезает даже в одну A100 80GB. Правда, с контекстом в 1M все равно придется использовать offloading — но это уже технические детали.

Как запустить зверя локально: пример

Хватит теории. Давайте попробуем. Самый простой способ — через Hugging Face с transformers и accelerate. Но учтите: для полного контекста в 1M нужно минимум 80GB VRAM (GPU) + еще 80GB RAM для offloading. Если у вас скромнее — попробуйте Flash 8B (упрощенная версия с тем же attention).

pip install transformers accelerate bitsandbytes

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "deepseek-ai/DeepSeek-V4-Flash-8B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
    load_in_4bit=True
)

# Загружаем документ -> миллион токенов
with open("big_doc.txt", "r") as f:
    text = f.read()
inputs = tokenizer(text[:1_000_000], return_tensors="pt", truncation=True).to("cuda")

# Генерируем анализ
prompt = "Кратко перечисли основные темы этого документа."
output = model.generate(
    **inputs,
    max_new_tokens=256,
    do_sample=True
)
print(tokenizer.decode(output[0]))

Звучит просто, но на практике load_in_4bit здорово режет точность. Если вам нужен качественный анализ кода или длинных юридических документов, лучше использовать полную версию без квантизации, но тогда потребуется A100 80GB или H100. И да, не забудьте про attention_implementation="flash_attention_2" — эта опция реально ускоряет инференс на 30%.

Реальные кейсы: где 1M контекст превращается в суперсилу

Я потестил DeepSeek V4 на нескольких задачах, которые раньше казались нерешаемыми для LLM. Во-первых, анализ кодовой базы. Берешь репозиторий на Python (100K+ строк), склеиваешь в один файл, и модель выдает рефакторинг с учетом всех зависимостей. OpenSeeker-v2 тоже умеет такое, но он агентный и требует много шагов. DeepSeek V4 справляется за один проход — быстрее, хоть и чуть менее детально.

Во-вторых, работа с историческими документами. Я загрузил в нее 500 страниц дипломатических нот XIX века (старая орфография, смесь французского и русского). Модель не только перевела, но и нашла паттерны — что-то, на что у историка ушла бы неделя. Конечно, не без ошибок — китайские модели все еще плохо знают дореволюционную Россию, но контекст она удержала.

В-третьих, агентные системы. Один контекст — и модель может хранить историю из сотен тысяч шагов. DeepSeek V4 создана для агентов — не нужно внешних баз памяти, все в одном внимании. Единственное — долго греется: первый токен при 1M контексте выдается через 30 секунд даже на A100.

Кому это нужно (а кому — нет)

Откровенно: DeepSeek V4 — не для всех. Если вы пишете письма или генерируете картинки — проходите мимо. Эта модель требует ресурсов и терпения. Но если вы:

строите AI-агента, который должен помнить весь диалог от начала и до конца;
анализируете юридические или финансовые документы на миллионы токенов;
исследуете длинные цепочки рассуждений (CoT) или научные статьи;
хотите локально запустить модель уровня frontier, не отдавая данные в облако,

...тогда DeepSeek V4 — ваш выбор. Особенно учитывая, что компания привлекла $10.3 млрд и явно делает ставку на открытость. Вряд ли они закроют исходники в ближайшее время.

Нюанс: Не стоит верить бенчмаркам на коротких тестах — DeepSeek V4 действительно проигрывает GPT-4o и Claude Opus 4 на суммаризации в 4K токенов. Но как только контекст переваливает за 100K, отрыв становится колоссальным. Это модель-специалист, а не универсал.

Что дальше?

Лично меня больше всего впечатлила новая residual connection — она позволила обучать MoE-модели глубиной в сотни слоев без затухания градиентов. Это, кстати, секрет, почему DeepSeek V4 может быть такой огромной и при этом стабильной. Думаю, через год все архитектуры перейдут на такой паттерн — и тогда flash attention станет лишь одним из ингредиентов.

Мой совет: не гонитесь за битвой бенчмарков. DeepSeek V4 — это инструмент для тех, кому нужен длинный контекст здесь и сейчас. Скачайте, покрутите, попробуйте загрузить в неё свой самый толстый документ. Удивитесь, сколько нового она в нём найдёт.

Подписаться на канал

DeepSeek V4: как open-source MoE с 1M контекстом переворачивает правила игры