Sarvam AI: Edge-ИИ на кнопочных телефонах и очках с Qualcomm | 2026 | AiManual
AiManual Logo Ai / Manual.
18 Фев 2026 Новости

Как Sarvam AI запускает модели на кнопочных телефонах и очках: обзор edge-подхода и партнёрства с Qualcomm

Технический разбор стратегии Sarvam AI: запуск LLM на feature phones через партнёрство с Qualcomm, суверенные модели для индийских языков и офлайн-ассистенты.

Кнопочный телефон с GPT-4o? Серьёзно?

В 2026 году, когда все обсуждают мультимодальные модели размером с небольшую галактику, индийский стартап Sarvam AI делает ставку на обратное. Их цель — запустить полноценные языковые модели на устройствах, которые многие считают мёртвыми: кнопочных телефонах. Не смартфонах. Не планшетах. А именно тех самых «звонилках» с физическими кнопками, которые до сих пор составляют львиную долю рынка в Индии и других развивающихся странах.

Партнёрство с Qualcomm — не просто пиар-ход. Это техническая необходимость. Последние чипы Snapdragon 8 Gen 4 и специально разработанные AI-ускорители в платформе Snapdragon 4s Gen 2 (да, они уже там) позволяют делать то, что ещё два года назад казалось фантастикой: локальный инференс 3-миллиардных моделей на устройстве с 2 ГБ оперативной памяти.

Контекст: Тренд смещения инференса с облака на устройство набирает обороты. Вспомните наш материал про Quadric и on-device AI. Sarvam AI идёт по тому же пути, но с фокусом на абсолютный low-end.

Зачем? Потому что «суверенный ИИ» — это не про облака, а про карманы

Лозунг «суверенный ИИ» в Индии часто сводят к созданию своих аналогов GPT-4 или Gemini. Sarvam AI переворачивает эту логику. Суверенитет, по их мнению, начинается не с дата-центров, а с возможности работать полностью офлайн, на устройстве пользователя, без единого байта, уходящего в американское или китайское облако.

Их флагманская модель, оптимизированная для 11 индийских языков, весит около 1.5 ГБ в квантованном виде (INT4). Для сравнения: та же Gemma 3 в 2B-параметрической версии требует куда больше ресурсов. Секрет — в агрессивной архитектурной оптимизации под конкретные языковые конструкции и в тесной интеграции с аппаратным стеком Qualcomm.

Как это технически возможно в 2026?

Всё упирается в три кита:

  1. Квантование на стероидах. Sarvam AI использует не стандартное INT8, а гибридную схему (INT4 для весов, FP16 для критичных активаций), которую их инженеры отладили совместно с Qualcomm для конкретных NPU-блоков в новых Snapdragon.
  2. Аппаратно-программный коктейль. Модель компилируется не «вообще» под ARM, а под конкретный микроархитектуру Hexagon NPU 780 (актуальная на февраль 2026). Это даёт прирост в 3-5 раз по сравнению с generic-инференсом.
  3. Контекст — это всё. Модель заточена под короткие, практичные диалоги (запрос погоды, перевод, простой вопрос-ответ), а не под генерацию романов. Это радикально снижает требования к памяти.
УстройствоЧипсетПамятьСкорость ответа
Nokia 2660 Flip (2026)Snapdragon 215 (мод.)512 МБ RAM~2.5 сек
JioPhone Next 2Snapdragon 4s Gen 22 ГБ RAM~1.1 сек
Ray-Ban Meta (2026)Qualcomm AR2 Gen 24 ГБ RAM~0.8 сек

А что с очками? Тот же движок, другой интерфейс

Партнёрство с Qualcovering здесь выходит на новый уровень. В очках Ray-Ban Meta нового поколения (2026) стоит чип Qualcomm AR2 Gen 2. Sarvam AI поставляет туда не полноценную LLM, а компактный «движок интента» — модель, которая определяет намерение пользователя по короткой голосовой команде и либо выполняет действие локально («включи песню»), либо формирует сверхсжатый запрос для облака, если без сети не обойтись.

Это решает одну из ключевых проблем, о которой мы писали в материале про этические мины в очках Ray-Ban. Локальная обработка базовых команд означает, что ваше «Окей, Meta, сколько калорий в этом пончике?» не улетает на сервер для полноценного анализа. Сначала локальная модель понимает, что это запрос про еду, и только затем, при необходимости, шлёт анонимизированный запрос.

Важно: Не путайте этот подход с тем, что делает Apple в Vision Pro. Там упор на мощные соцпроцессоры для чтения мимики. У Sarvam AI и Qualcomm фокус на энергоэффективность и мгновенный отклик для массовых устройств. О разных философиях можно почитать в нашем разборе покупки Apple Q.AI.

Проблемы? Их хватает

Главная — это, как ни странно, не производительность, а тепло. Крошечные корпуса кнопочных телефонов не рассчитаны на активное использование NPU. После 5-7 минут непрерывного диалога чип начинает троттлить, и скорость падает в разы. Sarvam AI решает это предсказательной загрузкой: модель загружается в память только когда пользователь долго зажимает кнопку вызова (специальный хоткей для ассистента).

Вторая проблема — обновления моделей. Как вы обновляете ИИ на устройстве без нормального интернета и магазина приложений? Через USSD-запросы и сжатые дифф-патчи, которые весят не больше 10-20 МБ. Звучит как ад, но работает.

Что это значит для рынка?

Qualcomm через это партнёрство убивает сразу двух зайцев. Во-первых, создаёт новый рынок для своих недорогих чипов с AI-ускорителями. Во-вторых, получает полигон для отработки технологий, которые потом перекочуют в более дорогие устройства. Их стратегия по захвату AI-инфраструктуры, о которой мы писали в контексте AI200 и AI250, здесь проявляется в полной мере.

Для пользователя в Дели или Мумбаи это означает появление первого по-настоящему полезного ИИ-ассистента, который не требует постоянного 5G, понимает хинди с тамильским лучше Google Assistant и работает даже когда счет за мобильный интернет давно не оплачен.

Финал? Sarvam AI не собирается останавливаться на Индии. Их дорожная карта включает адаптацию платформы для арабского, суахили и испанского языков. А следующий шаг — интеграция их edge-движка в автомобильные системы на базе Snapdragon Ride. Так что, возможно, ваш следующий «умный» кнопочный телефон или бюджетный автомобиль будут говорить с вами на родном языке без облаков и подписок. И это, пожалуй, самое честное воплощение идеи «ИИ для всех».