LongCat 2.0 — открытая MoE-модель 1.6T под MIT: что известно

Выстрел в спину индустрии. Или, наоборот, торпеда в борт проприетарных монстров. 4 июля 2026 года команда LongCat AI выложила в открытый доступ веса модели longcat 2.0 — MoE-архитектуры с 1,6 триллионами параметров и всего 48 миллиардами активных на токен. Лицензия — MIT, то есть бери и делай что хочешь, хоть коммерческий продукт, хоть свой StarCraft-римейк. Звучит как фантастика? Давайте разбираться, что за зверь выполз из китайской лаборатории.

Важный нюанс: longcat 2.0 — не очередная «улучшенная» версия какой-то закрытой модели. Это полностью открытая разработка, где автор выложил не только веса, но и конфиг архитектуры, и даже логи обучения. Правда, без кода инференса и примеров запуска — но об этом ниже.

1,6 триллиона — это сколько? И зачем столько?

Если вы не следили за гонкой гигантов, то для контекста: Qwen 3.5 Plus весит 397 млрд параметров (17 активных), Ring 2.6 от Inclusion AI — 1 триллион (30 активных). LongCat 2.0 перешагивает психологическую отметку в полтора триллиона. Но «активных» — всего 48 млрд. Что это значит на практике? Каждый токен обрабатывается через 48 млрд весов, а остальные 1,55 трлн — спят в тени. MoE (Mixture of Experts) делает модель одновременно гигантской по знаниям и умеренно прожорливой по вычислительным ресурсам.

Модель	Всего параметров	Активных	Лицензия
LongCat 2.0	1,6 трлн	48 млрд	MIT
Ring 2.6	1 трлн	30 млрд	Apache 2.0
Qwen 3.5 Plus	397 млрд	17 млрд	Custom (open-weight)
MiniMax M2.5	~250 млрд	~8 млрд	MIT

Сравнение с Ring 2.6 напрашивается само собой. У Ring тоже триллион, но лицензия Apache 2.0 — почти так же свободно. Однако у longcat 2.0 в полтора раза больше «спящего» фонда знаний, что, по заявлениям авторов, даёт лучшее качество на редких языках и узких доменах. А вот MiniMax M2.5 при тех же 250 млрд total показывает, что размер — не всегда синоним ума, но с 1,6 трлн тягаться сложно.

MIT — это не просто слово

В мире open-weight моделей лицензия MIT — редкость. Большинство «открытых» гигантов (вроде Qwen 3.5 или Llama 4) используют Custom license с ограничениями: нельзя использовать для обучения конкурентов, нельзя применять в военных целях, нельзя... ещё много чего. LongCat 2.0 идёт по стопам настоящего опенсорса: бери, модифицируй, продавай, даже если ты — Meta или OpenAI. Фактически, первый кандидат на звание «полностью открытой SOTA-модели».

Но есть подвох. Команда LongCat AI — небольшая группа энтузиастов из Шэньчжэня. Ни поддержки от Alibaba, ни бюджета Tencent. Они утверждают, что собирали кластер из 8 H100 (спасибо краудфандингу). Как им удалось обучить 1,6 трлн параметров на таком железе — вопрос, на который у них пока нет публичного ответа. Возможно, часть обучения проходила на обычных GPU с «накачкой» через offloading, как в экспериментальных инференс-движках.

48 млрд активных — это для кого?

Звучит круто: «всего 48 млрд параметров активны». Но давайте приземлимся. Чтобы загрузить модель в FP16, нужно ~96 ГБ памяти на веса плюс кэш, оптимизатор, градиенты для обучения. Одна H100 с 80 ГБ уже не вмещает — потребуется минимум две (с распределением экспертов по GPU). А для инференса — хотя бы одна карта с 80 ГБ, если использовать 4-битное квантование. Qwen 3.5 397B на Mac — это здорово, но 48B active при 1,6T total — другая лига. Даже 8 Blackwell не спасут, если у вас нет денег на датацентр.

Правда, авторы обещают 4-битную квантизацию (до 24 ГБ) и поддержку vLLM в ближайшие недели. А пока — только сырые веса и конфиг. Если вы хотите запустить модель прямо сейчас, придётся либо писать свой инференс-движок, либо арендовать кластер. Совместная покупка железа — уже не шутка, а реальность для энтузиастов.

Бенчмарки: пока тишина, но есть намёки

На момент анонса в открытом доступе нет ни таблицы с MMLU, ни результатов HumanEval. Авторы лишь опубликовали скриншот с «внутренним тестом» на 2000 примеров, где модель обходит GPT-4o в задачах на логику на 12%. Но назвать это серьёзным бенчмарком язык не поворачивается. Ожидается, что независимые тесты появятся в течение недели. Будем следить.

Что интересно: архитектура longcat 2.0 использует групповое квантование внимания и динамическое перераспределение экспертов — фишки, которые раньше видели только в BitMamba-2 и некоторых исследовательских проектах. Если это не просто рекламный трюк, то longcat может стать самой эффективной моделью на ватт на рынке.

Что дальше? Дорожная карта — туман

Команда обещает через месяц выпустить Chat-версию, инструкцию по дообучению и Lora weights для трансформеров. А также — интеграцию с LiteLLM (чтобы можно было гонять модель в продакшене без гадания на кофейной гуще). Но пока всё это — на уровне обещаний.

Лично меня радует другое: longcat 2.0 доказывает, что даже маленькая команда может создать модель, способную конкурировать с закрытыми гигантами. И сделать это под MIT. А значит, мы увидим лавину derivative-проектов, дообучений и кастомных решений. Возможно, уже через полгода кто-нибудь выпустит longcat-2.0-coder или longcat-medical — и это будет бесплатно. Вот это и есть настоящий опенсорс, а не маркетинговая ширма.

Совет инженерам: не пытайтесь запустить модель на одной видеокарте. Лучше дождитесь официальной квантизации от авторов или посмотрите в сторону Ring 2.6 — у него уже есть готовые сборки под TensorRT-LLM. А longcat 2.0 пока оставьте для экспериментов на мощном железе. Но следить за ней стоит — возможно, это начало новой эры доступных гигантов.

Подписаться на канал

LongCat 2.0: 1,6 триллиона параметров под MIT — новый король открытых моделей?

1,6 триллиона — это сколько? И зачем столько?

MIT — это не просто слово

48 млрд активных — это для кого?

Бенчмарки: пока тишина, но есть намёки

Что дальше? Дорожная карта — туман

Подписывайтесь на наш канал!