Индийский слон в посудной лавке мирового AI

Пока все обсуждают американские и китайские модели, индийский стартап Sarvam AI тихо выпустил две бомбы: 30-миллиардную и 105-миллиардную модели с архитектурой Mixture of Experts. И сделал это не просто так. Они с нуля обучали их на хинди, тамильском, телугу и бенгали. В феврале 2026 года это выглядит либо как гениальный ход, либо как безумие. Разбираемся, что к чему.

На 18 февраля 2026 года Sarvam AI 30B и 105B — самые крупные open-source модели, специально созданные для индийских языков. Архитектура MoE позволяет им быть эффективнее плотных моделей аналогичного размера.

Что внутри у этого слона? Техническая начинка

Цифры впечатляют, но за ними скрывается продуманная инженерия. Sarvam 105B использует Mixture of Experts с 16 экспертами, из которых активируются только 4 на каждый токен. Это значит, что при 105 миллиардах общих параметров в работе участвуют примерно 26 миллиардов. Хитро? Еще бы.

Параметр	Sarvam 30B	Sarvam 105B
Архитектура	Плотная (Dense)	Mixture of Experts (16 экспертов, 4 активных)
Контекстное окно	128K токенов	128K токенов
Обучение	С нуля на 2.5T токенов (40% индийские языки)	С нуля на 3.8T токенов (40% индийские языки)
Поддержка языков	Хинди, тамильский, телугу, бенгали, английский	Хинди, тамильский, телугу, бенгали, английский + 8 других индийских
Текст-в-речь	Интегрированная модель для хинди	Интегрированная модель для 5 индийских языков

Контекст в 128 тысяч токенов — это не просто маркетинг. Модели действительно умеют работать с длинными документами на индийских языках, что критично для юридических текстов, литературных произведений и технической документации. И да, они понимают контекстные сдвиги между хинди и английским в одном документе.

Зачем учить с нуля? Проклятие переводных датасетов

Большинство моделей для непопулярных языков используют датасеты, переведенные с английского. Получается убого. Sarvam пошел другим путем: собрали нативные тексты на хинди, тамильском и других языках. Новостные сайты, литература, технические форумы, государственные документы.

💡

Обучение с нуля на нативных данных дает модели понимание культурного контекста, идиом и реалий, которые невозможно передать через перевод. Это то, чего не хватает многим мультиязычным моделям, включая последние версии Llama и Qwen.

Результат? Модель генерирует тексты на хинди, которые не пахнут гугл-переводчиком. Она понимает, что «chai» — это не просто «tea», а культурный феномен. Что тамильский поэзия имеет специфические метрические схемы. Что в бенгальском есть уровни вежливости, которых нет в английском.

С кем драться будем? Сравнение с альтернативами

На рынке open-source моделей в 2026 году тесно. Посмотрим, как Sarvam стоит против конкурентов.

Qwen2.5 72B: Китайский тяжеловес с отличной поддержкой английского и китайского. Для индийских языков использует переводные датасеты — качество заметно хуже. Но в общих задачах на английском Qwen2.5 все еще сильнее.
Llama 3.2 90B: Meta продолжает улучшать свою флагманскую линейку. Поддержка индийских языков есть, но поверхностная. Зато интеграция с экосистемой Meta безупречна.
Falcon-H1-Arabic: Интересная параллель — модель, созданная специально для арабского. Тоже обучена с нуля на нативных данных. Показывает, что специализация работает. Подробнее о гибридных архитектурах для сложных языков можно прочитать в обзоре Falcon-H1-Arabic.
Ling-2.5-1T: Гигант с триллионом параметров и 63 миллиардами активных. Контекст — миллион токенов. Но это общая модель, не заточенная под конкретные языки. Если нужна максимальная производительность на английском — смотрите в сторону Ling. Для индийских языков Sarvam выигрывает.

Главное преимущество Sarvam — не размер, а специализация. Как специализированные ASR-модели бьют универсальные в своих нишах, так и Sarvam доминирует в индийских языках.

Текст-в-речь: голос, который не режет слух

Встроенная TTS (text-to-speech) модель — фишка, которая отличает Sarvam от конкурентов. Они не просто генерируют текст на хинди, но и могут его озвучить с правильной интонацией, ударениями и эмоциональной окраской.

TTS-компонент пока работает только для основных индийских языков. Для английского озвучка среднего качества — лучше использовать специализированные модели вроде Parakeet или последние версии Whisper.

На практике это значит, что можно создать голосового ассистента для сельских районов Индии, где грамотность населения ниже. Или систему озвучки учебных материалов на тамильском. Или call-центр, который понимает и говорит на бенгальском с диалектными особенностями.

Кому этот слон пригодится? Целевая аудитория

Sarvam — не для всех. Это инструмент для конкретных задач.

Индийские стартапы и компании: Если ваш продукт работает в Индии, Sarvam даст качество, которого нет у универсальных моделей. Особенно в банковском секторе, образовании и госуслугах.
Исследователи лингвистики и AI: Открытые веса и архитектура — золотая жила для экспериментов. Хотите понять, как MoE работает с морфологически богатыми языками? Держите.
Разработчики голосовых интерфейсов: Встроенный TTS + понимание контекста на родном языке = быстрый старт без сбора датасетов с нуля.
Правительственные организации Индии: Суверенный AI на национальных языках — мечта любого государства. Sarvam эту мечту реализует.

Если же вам нужна модель для тонкой настройки на английские данные, лучше посмотреть на другие варианты. Sarvam заточен под свою нишу и не пытается быть всем для всех.

Подводные камни и ограничения

Идеальных моделей не бывает. У Sarvam тоже есть проблемы.

Во-первых, требования к железу. 105B-параметровая MoE-модель — это не игрушка. Для инференса нужны как минимум 2-4 GPU с 80GB памяти каждая. Хотя благодаря архитектуре экспертов, она эффективнее плотной модели того же размера.

Во-вторых, документация. На февраль 2026 года она все еще сыровата. Особенно по части тонкой настройки. Придется разбираться с исходным кодом.

В-третьих, английский. Да, модель знает английский, но не на уровне специализированных моделей. Если ваша задача — анализ английских финансовых отчетов, берите Qwen2.5 или Llama.

В-четвертых, скорость генерации. MoE-архитектура требует маршрутизации между экспертами, что добавляет задержек. Для реального времени может не подойти.

Что дальше? Прогноз на 2026-2027

Sarvam показал, что обучение с нуля на нативных данных работает. В 2026 году ждем волну подобных моделей для других языковых групп: арабских, африканских, восточноазиатских.

Скорее всего, Sarvam выпустит облегченную версию 7B-13B для мобильных устройств. Сейчас модель слишком тяжела для edge-устройств.

Интеграция с популярными фреймворками вроде Hugging Face Transformers и vLLM улучшится. Сейчас есть некоторые трения с совместимостью.

И главное — появятся fine-tuned версии для конкретных отраслей: медицина на тамильском, юриспруденция на хинди, образование на бенгали. Это будет следующий шаг.

Если вы работаете с индийскими языками — скачивайте Sarvam сейчас. Если нет — следите за архитектурными решениями. Их подход к MoE и обучению на нативных данных станет стандартом для мультиязычных моделей будущего. Как показал эксперимент с гибридными архитектурами для малых моделей, иногда самые интересные инновации приходят из периферии.

Sarvam AI 30B и 105B: индийский MoE-гигант с 128K контекстом, который не стесняется своих языков