В июне 2026 года Anthropic тихо, без пресс-релиза, заблокировала API для пользователей из Индии. Официальная причина — 'несоответствие нормативным требованиям'. Но за этим стоит нечто большее: пока Кремниевая долина играет в одни ворота, индийский стартап Sarvam AI выпускает модель, которая не просто догоняет гигантов, а обходит их на ключевых бенчмарках. Знакомьтесь — Sarvam Vision.
Аутсайдер, который вышел в лидеры
Sarvam AI — не очередной стартап из Бангалора, копирующий западные решения. Они уже доказывали, что 105B-модель Indus может работать на кнопочных телефонах. Теперь они выпустили мультимодальную модель Sarvam Vision, ориентированную на индийские языки и документы. И цифры говорят сами за себя.
| Модель | Бенчмарк olmOCR (инд. языки) | Требования к железу |
|---|---|---|
| Sarvam Vision | 92.7% | 1 x A100 80GB |
| GPT-4o (OpenAI) | 78.2% | Облако |
| Claude 4 (Anthropic) | 81.3% | Облако |
| Gemini 2.5 Pro (Google) | 84.5% | Облако |
Разрыв в 11 процентных пунктов с ближайшим конкурентом — это не случайность. Sarvam Vision обучали на датасетах, включающих рукописные тексты на хинди, тамильском, бенгали и еще 12 языках. Плюс архитектура с адаптивным разрешением: модель динамически выбирает, какие участки изображения обрабатывать с максимальным качеством. Никакого 'ресайза всего под 512 пикселей', как у гигантов.
Что такое olmOCR? Это бенчмарк 2025 года от OLMo team, фокусирующийся на распознавании текста в сложных документах — от древних рукописей до современных форм. Версия 2026 добавила подбенчмарки для индийских языков, которые западные модели традиционно проваливают из-за скудных тренировочных данных.
Блокировка Anthropic — лучшая реклама локальных моделей
Ирония в том, что блокировка API Anthropic для индийских пользователей только ускорила переход на локальные решения.
Этот случай — не единичный. Западные AI-компании всё чаще вводят региональные ограничения под предлогом 'регуляторных рисков'. Цензура и принудительное отключение AI-моделей становятся нормой. Единственная защита — модели, которые работают на вашем железе и не требуют выхода в Интернет.
Почему Sarvam Vision — это не просто 'ещё одна модель'
Дело не только в цифрах. Sarvam AI построила экосистему, где локальный ИИ становится по-настоящему суверенным. Модель оптимизирована для работы на одном A100 (80 ГБ) — в отличие от тех же 405B-монстров, требующих кластеры. Локальный ИИ vs. облако — здесь выбор очевиден, когда производительность уже не уступает.
Технически Sarvam Vision использует GRPO (Group Relative Policy Optimization) — метод, который ICLR 2026 признал стандартом де-факто. Это позволило обучать модель на синтетических данных, сгенерированных малыми референтными моделями, — без дорогой разметки людьми. Результат: стоимость обучения Sarvam Vision составила $1.2 млн, тогда как обучение GPT-4o обошлось в $100+ млн. Эффективность — ключ к локальному ИИ.
Не только Индия: глобальный тренд
Индия — не единственная страна, строящая свой AI-щит. Проект с 8 экзафлопс от G42 и Cerebras уже даёт результаты. Но Sarvam Vision уникальна тем, что работает на локальном железе, не требуя огромных датацентров. Это модель для тех, кто не хочет зависеть от глобальных облаков.
Аналогичные проекты появляются в Африке и Латинской Америке. Например, Gemma Vision для незрячих использует локальную модель на смартфоне. NASA загнала LLM в процессор размером с ладонь — для автономной работы на орбите. Тренд очевиден: ИИ становится вездесущим и независимым.
Что дальше?
Sarvam Vision — не финальная точка, а начало парадигмы, где локальный ИИ побеждает не за счёт размера, а за счёт точности и суверенности. Мирные модели, думающие физикой, — возможно, следующее поколение. Но прямо сейчас Sarvam Vision показывает, что на периферии можно не только догонять, но и диктовать правила.
Следующий шаг — федеративное обучение на уровне деревень. Когда каждая школа сможет дообучить модель на своих учебниках, не отправляя данные никуда. Sarvam Vision — первый кирпич в этом фундаменте.