Когда телефон думает сам, но иногда просит помощи у облака
Вы открываете камеру Pixel 10, наводите на текст на французском. За секунду он переводится прямо в видоискателе. Вы диктуете сообщение iPhone 17 - он не просто транскрибирует, а понимает контекст, предлагает варианты ответа. Никакого интернета. Никакой задержки. Как это вообще работает в 2025 году?
Ответ - в архитектуре, которая перестала быть бинарной. Раньше было просто: либо все на устройстве (медленно, ограничено), либо все в облаке (быстро, но приватность под вопросом). Сейчас появилась третья опция - гибридный инференс. И он полностью меняет правила игры.
Tensor G5 против A19 Bionic: железная гонка за нейронные такты
Google анонсировала Tensor G5 в октябре 2024. Цифры впечатляют: 34 TOPS (триллионов операций в секунду), новый NPU с архитектурой «Edge TPU v3», 16 ГБ унифицированной памяти LPDDR5X. Для сравнения - Tensor G4 в Pixel 9 давал 22 TOPS. Рост на 55% за год.
Но Apple не спит. A19 Bionic, представленный в сентябре 2025, показывает 42 TOPS. Да, формально больше. Но есть нюанс: архитектура Apple Neural Engine оптимизирована под конкретные типы моделей - в основном те, что используются в iOS 19. Tensor G5 более универсален, поддерживает больше форматов (INT8, INT4, FP16, bfloat16).
| Параметр | Google Tensor G5 (Pixel 10) | Apple A19 Bionic (iPhone 17) |
|---|---|---|
| Производительность NPU (TOPS) | 34 | 42 |
| Поддерживаемые форматы | INT4, INT8, FP16, bfloat16 | INT8, FP16 (оптимизировано под ANE) |
| Память для моделей | До 8 ГБ выделено под AICore | До 6 ГБ в Neural Engine cache |
| Энергопотребление при инференсе | ~3.5 Вт (макс) | ~2.8 Вт (макс) |
Практический смысл этих цифр? Tensor G5 может держать в памяти сразу несколько моделей среднего размера (3-4 млрд параметров каждая). A19 Bionic предпочитает одну большую, но сильно оптимизированную. Разные философии.
Private Cloud Compute: когда облако должно вести себя как локальное устройство
Вот где начинается самое интересное. Apple представила Private Cloud Compute (PCC) в iOS 18.5 в марте 2025. Google ответила своей версией в Android 15 AICore к августу. Идея проста, но технически сложна: создать облачный сервис, который по уровню безопасности не уступает локальному вычислению.
Как это работает? Ваш запрос (например, сложный анализ медицинского документа) шифруется на устройстве. Ключ расшифровки генерируется локально и не передается. Зашифрованные данные отправляются в PCC. Там они обрабатываются в изолированной среде (secure enclave в облаке, серьезно). Результат шифруется и возвращается. Ключ для расшифровки - только у вас на устройстве.
Важный нюанс: и Apple, и Google публикуют transparency reports для своих PCC. Вы можете проверить, какие модели работают в облаке, на каком железе, с какой версией ПО. В 2025 году это требование регуляторов ЕС и США.
Но есть разница в реализации. Apple использует модели на базе Gemini (да, тот самый февральский анонс 2025 года сработал). Google предпочитает свои PaLM 3X-Small, оптимизированные под мобильный контекст.
Android AICore против Apple Intelligence: две операционные системы, одна цель
AICore в Android 15 - это не приложение. Это системный сервис, который живет между ядром и фреймворком. Он управляет:
- Загрузкой и выгрузкой моделей из защищенного хранилища
- Распределением вычислений между CPU, GPU и NPU
- Принятием решения: on-device или PCC
- Кэшированием результатов для повторных запросов
Apple Intelligence в iOS 19 работает иначе. Там все завязано на Continuity Engine - системе, которая отслеживает, какие модели вам сейчас нужны. Если вы начали писать сообщение, в память загружается языковая модель. Если открыли камеру - модель компьютерного зрения. Все происходит фоново, незаметно.
Проблема Apple подхода? Жесткая привязка к собственным моделям. Хотите запустить стороннюю LLM через KernelAI? Придется искать обходные пути. Android здесь гибче - AICore имеет открытый API для разработчиков.
Что остается на устройстве в 2025, а что улетает в облако
Распределение задач стабилизировалось. После двух лет экспериментов индустрия выработала консенсус:
| Задача | Где обрабатывается | Почему |
|---|---|---|
| Распознавание речи (диктовка) | On-device | Требует минимальной задержки, модели <3 млрд параметров |
| Перевод текста в реальном времени | On-device | Работает без интернета, критично для путешествий |
| Генерация длинных текстов (эссе, отчеты) | Private Cloud Compute | Требует моделей >20 млрд параметров, терпит задержку 2-3 сек |
| Анализ медицинских снимков | Private Cloud Compute | Высокие требования к точности, конфиденциальность данных |
| Вычислительная фотография (вроде той самой «луны») | On-device | Должно работать мгновенно, даже в самолете |
Батарея vs производительность: как они решают дилемму
Самый болезненный вопрос. NPU в Tensor G5 при полной нагрузке съедает 3.5 Вт. Для сравнения - весь Pixel 10 в режиме простоя потребляет 0.8 Вт. Запуск сложной on-device модели может сократить время работы на 15-20%.
Поэтому системы научились хитрить. AICore в Android 15 использует predictive loading - предсказывает, какие модели вам понадобятся в ближайшие минуты, и загружает их в энергоэффективную память NPU заранее. Когда запрос приходит - модель уже готова, не тратится время (и энергия) на загрузку.
Apple пошла другим путем. Их Neural Engine имеет три режима мощности: Low (0.5 Вт), Medium (1.8 Вт), High (2.8 Вт). Система автоматически выбирает режим в зависимости от сложности задачи и уровня заряда. Если батарея ниже 20% - все сложные задачи автоматически перенаправляются в PCC (при наличии сети).
Интересный факт: в тестах 2025 года Pixel 10 проигрывает iPhone 17 в автономности при активном использовании ИИ на 7-12%. Но выигрывает в скорости отклика on-device функций на 15-30%. Выбор между «думает дольше, но живет больше» и «мгновенный ответ, но садится быстрее».
Что будет в 2026? Прогнозы от тех, кто видел чертежи
По слухам из цепочки поставок (TSMC, Samsung Foundry), в 2026 нас ждет:
- Tensor G6 с 3D-упаковкой памяти: модели будут загружаться прямо в кэш NPU, минуя ОЗУ. Экономия энергии до 40% на операциях ввода-вывода
- A20 Bionic с отдельным «AI Safety Core» - аппаратным модулем для проверки безопасности моделей перед выполнением. Ответ на регуляторное давление
- Стандартизация Neural Processing SDK от Khronos Group (те же, кто делает Vulkan). Разработчики смогут писать код один раз, запускать на любом NPU
Но главный тренд - исчезновение границы между on-device и cloud. Будут появляться распределенные системы, где часть модели работает на телефоне, часть - в PCC, часть - на других ваших устройствах (часах, ноутбуке).
Совет напоследок: если покупаете флагман в 2026, смотрите не на TOPS, а на поддерживаемые форматы моделей. INT4 и sparse quantization в 2026 важнее сырой производительности. И проверяйте, есть ли у бренда собственный PCC - без него половина функций будет недоступна при плохом соединении.
Архитектура мобильного ИИ перестала быть технической деталью. Она стала конкурентным преимуществом. И тот, кто проиграет в этой гонке, останется просто телефоном в мире, где телефоны должны быть умнее своих владельцев.