Кнопочный телефон с GPT-4o? Серьёзно?
В 2026 году, когда все обсуждают мультимодальные модели размером с небольшую галактику, индийский стартап Sarvam AI делает ставку на обратное. Их цель — запустить полноценные языковые модели на устройствах, которые многие считают мёртвыми: кнопочных телефонах. Не смартфонах. Не планшетах. А именно тех самых «звонилках» с физическими кнопками, которые до сих пор составляют львиную долю рынка в Индии и других развивающихся странах.
Партнёрство с Qualcomm — не просто пиар-ход. Это техническая необходимость. Последние чипы Snapdragon 8 Gen 4 и специально разработанные AI-ускорители в платформе Snapdragon 4s Gen 2 (да, они уже там) позволяют делать то, что ещё два года назад казалось фантастикой: локальный инференс 3-миллиардных моделей на устройстве с 2 ГБ оперативной памяти.
Контекст: Тренд смещения инференса с облака на устройство набирает обороты. Вспомните наш материал про Quadric и on-device AI. Sarvam AI идёт по тому же пути, но с фокусом на абсолютный low-end.
Зачем? Потому что «суверенный ИИ» — это не про облака, а про карманы
Лозунг «суверенный ИИ» в Индии часто сводят к созданию своих аналогов GPT-4 или Gemini. Sarvam AI переворачивает эту логику. Суверенитет, по их мнению, начинается не с дата-центров, а с возможности работать полностью офлайн, на устройстве пользователя, без единого байта, уходящего в американское или китайское облако.
Их флагманская модель, оптимизированная для 11 индийских языков, весит около 1.5 ГБ в квантованном виде (INT4). Для сравнения: та же Gemma 3 в 2B-параметрической версии требует куда больше ресурсов. Секрет — в агрессивной архитектурной оптимизации под конкретные языковые конструкции и в тесной интеграции с аппаратным стеком Qualcomm.
Как это технически возможно в 2026?
Всё упирается в три кита:
- Квантование на стероидах. Sarvam AI использует не стандартное INT8, а гибридную схему (INT4 для весов, FP16 для критичных активаций), которую их инженеры отладили совместно с Qualcomm для конкретных NPU-блоков в новых Snapdragon.
- Аппаратно-программный коктейль. Модель компилируется не «вообще» под ARM, а под конкретный микроархитектуру Hexagon NPU 780 (актуальная на февраль 2026). Это даёт прирост в 3-5 раз по сравнению с generic-инференсом.
- Контекст — это всё. Модель заточена под короткие, практичные диалоги (запрос погоды, перевод, простой вопрос-ответ), а не под генерацию романов. Это радикально снижает требования к памяти.
| Устройство | Чипсет | Память | Скорость ответа |
|---|---|---|---|
| Nokia 2660 Flip (2026) | Snapdragon 215 (мод.) | 512 МБ RAM | ~2.5 сек |
| JioPhone Next 2 | Snapdragon 4s Gen 2 | 2 ГБ RAM | ~1.1 сек |
| Ray-Ban Meta (2026) | Qualcomm AR2 Gen 2 | 4 ГБ RAM | ~0.8 сек |
А что с очками? Тот же движок, другой интерфейс
Партнёрство с Qualcovering здесь выходит на новый уровень. В очках Ray-Ban Meta нового поколения (2026) стоит чип Qualcomm AR2 Gen 2. Sarvam AI поставляет туда не полноценную LLM, а компактный «движок интента» — модель, которая определяет намерение пользователя по короткой голосовой команде и либо выполняет действие локально («включи песню»), либо формирует сверхсжатый запрос для облака, если без сети не обойтись.
Это решает одну из ключевых проблем, о которой мы писали в материале про этические мины в очках Ray-Ban. Локальная обработка базовых команд означает, что ваше «Окей, Meta, сколько калорий в этом пончике?» не улетает на сервер для полноценного анализа. Сначала локальная модель понимает, что это запрос про еду, и только затем, при необходимости, шлёт анонимизированный запрос.
Важно: Не путайте этот подход с тем, что делает Apple в Vision Pro. Там упор на мощные соцпроцессоры для чтения мимики. У Sarvam AI и Qualcomm фокус на энергоэффективность и мгновенный отклик для массовых устройств. О разных философиях можно почитать в нашем разборе покупки Apple Q.AI.
Проблемы? Их хватает
Главная — это, как ни странно, не производительность, а тепло. Крошечные корпуса кнопочных телефонов не рассчитаны на активное использование NPU. После 5-7 минут непрерывного диалога чип начинает троттлить, и скорость падает в разы. Sarvam AI решает это предсказательной загрузкой: модель загружается в память только когда пользователь долго зажимает кнопку вызова (специальный хоткей для ассистента).
Вторая проблема — обновления моделей. Как вы обновляете ИИ на устройстве без нормального интернета и магазина приложений? Через USSD-запросы и сжатые дифф-патчи, которые весят не больше 10-20 МБ. Звучит как ад, но работает.
Что это значит для рынка?
Qualcomm через это партнёрство убивает сразу двух зайцев. Во-первых, создаёт новый рынок для своих недорогих чипов с AI-ускорителями. Во-вторых, получает полигон для отработки технологий, которые потом перекочуют в более дорогие устройства. Их стратегия по захвату AI-инфраструктуры, о которой мы писали в контексте AI200 и AI250, здесь проявляется в полной мере.
Для пользователя в Дели или Мумбаи это означает появление первого по-настоящему полезного ИИ-ассистента, который не требует постоянного 5G, понимает хинди с тамильским лучше Google Assistant и работает даже когда счет за мобильный интернет давно не оплачен.
Финал? Sarvam AI не собирается останавливаться на Индии. Их дорожная карта включает адаптацию платформы для арабского, суахили и испанского языков. А следующий шаг — интеграция их edge-движка в автомобильные системы на базе Snapdragon Ride. Так что, возможно, ваш следующий «умный» кнопочный телефон или бюджетный автомобиль будут говорить с вами на родном языке без облаков и подписок. И это, пожалуй, самое честное воплощение идеи «ИИ для всех».