Еще вчера это казалось шуткой
Мой iPhone 17 Pro только что выдал 142 токена в секунду, пока я пил кофе. Это не опечатка. Мы протестировали свежеапдейченную Gemma 4 8B, квантованную до IQ4_XS, на новом флагмане Apple и теперь не знаем, куда девать эти цифры. Они слишком хороши, чтобы быть правдой.
В прошлом году рекорд мобильного LLM был в районе 80-90 токенов/с для моделей поменьше. Январь 2026-го в лице Jan-v3 4B в формате MNN показал себя отлично. Но сейчас мы имеем полноценную 8-миллиардную модель, которая не заикается на сложных промптах и не превращает телефон в грелку.
Что сжег новый Neural Engine?
iPhone 17 Pro получил нейронный процессор A19 Pro Neural Engine 6-го поколения. Apple, как обычно, не разглашает терафлопсы, но инженеры из MLX-комьюнити выяснили, что у него под капотом — 48-ядерный монстр с выделенным аппаратным ускорителем для матричных операций (тот самый AMX). Именно он, а не GPU или CPU, тащит основную нагрузку.
Мы использовали интеграцию с MLX, специально оптимизированную под iOS 20. Система сама распределяет вычисления между CPU, GPU и NPU, но в нашем случае 95% работы легло на Neural Engine. Телефон через 15 минут теста был теплым, но не горячим. Батарея просела на 12% — цифра, которую я видел и в менее требовательных 3D-играх.
| Устройство / Модель | Конфигурация | Скорость (токенов/с) | Примечание |
|---|---|---|---|
| iPhone 17 Pro | Gemma 4 8B (IQ4_XS) | 142 | MLX, iOS 20, наш тест |
| Samsung Galaxy S26 Ultra | Gemma 4 8B (Q4_K_M) | 98 | Через llama.cpp с NPU |
| iPhone 15 Pro (2024) | Gemma 3 270M | ~200 | Но модель в 30 раз меньше, качество хуже |
| M5 MacBook Air (16 ГБ) | Gemma 4 26B (IQ4_XS) | ~85 | Для сравнения с настольным решением, больше параметров |
Вот и ответ. Смартфон обогнал по скорости генерации многие ноутбуки на ARM-архитектуре, хотя и работает с моделью поменьше. Прямое сравнение с устройствами на 8 ГБ ОЗУ двухлетней давности просто неуместно — разрыв в 3-4 раза.
А где подвох? Всегда же есть подвох
Он есть. И не один.
- Память. Gemma 4 8B в формате IQ4_XS занимает около 4.5 ГБ. У iPhone 17 Pro базовый вариант — 12 ГБ ОЗУ. Это ок. Но если вы захотите параллельно слушать музыку, снимать видео и держать двадцать вкладок в Safari, система начнет выгружать модель. Скорость упадет в ноль при перезагрузке контекста.
- Тепло. После 25 минут непрерывной генерации длинного текста (скажем, 2000 токенов) Neural Engine дросселится. Скорость падает до 110-115 токенов/с. Apple сделала хорошее охлаждение, но законы физики не обманешь.
- Софт. Нормальных клиентов для iOS, которые используют MLX и выдают красивый чат-интерфейс, можно пересчитать по пальцам. Большинство — сырые билды из GitHub, которые собираются через Xcode. Проще с Android, где есть выбор клиентов.
Не обольщайтесь цифрами. 142 токена/с — это пиковая скорость на холодном устройстве с одним активным процессом. В реальной жизни, когда фоном работает почта и мессенджеры, ожидайте 120-130. Все равно фантастика.
Зачем это вам? Серьезно
Локальный ИИ на телефоне — это не про то, чтобы удивить друзей на вечеринке. Это про приватность, скорость ответа и независимость от серверов Google или OpenAI, которые могут стоить денег или лагать.
Представьте:
- Вы летите в самолете. Нет интернета. Но ваш ассистент читает PDF-ки, суммирует встречи, помогает писать код. Мгновенно.
- Вы обсуждаете с врачом результаты анализов. Данные никуда не уходят в облако. Они обрабатываются в песочнице вашей же операционки.
- Вы путешествуете и переписываетесь с иностранцами. Локальный переводчик без задержек, адаптированный под сленг.
Это уже не будущее. Это настоящее, которое наступило с выходом iPhone 17 Pro и оптимизированной Gemma 4. Android-лагерь не отстает — ждем тестов на Snapdragon 8 Gen 4 с его ИИ-ядром Hexagon.
Что дальше? Две недечи на размышление
Apple тихо готовит собственный фреймворк для разработчиков — «Private AI Core». Утечки говорят, что это будет надстройка над Core ML и MLX, которая позволит запускать сторонние модели (включая Gemma, Qwen, Llama) с одной кнопкой, как это делается в настольных приложениях.
Если это правда, к концу 2026 года у нас появится App Store с разделом «Локальные AI-приложения». Разработчики смогут продавать свои обертки для моделей, а пользователи — скачивать ассистентов, которые работают оффлайн и не сливают данные.
Мой прогноз? Через год мы будем смеяться над этими 142 токенами/с. Neural Engine в iPhone 18 Pro получит специализированные блоки для смешанных экспертных моделей (MoE), а Google и Meta выпустят Gemma 5 и Llama 4 в форматах, которые будут заточены под мобильные NPU с первого дня.
А пока — совет. Если вы покупаете iPhone 17 Pro и хоть немного интересуетесь ИИ, не экономьте на оперативной памяти. Берите версию с 16 ГБ. Места для моделей будет больше, а система не станет убивать фоновые процессы каждые пять минут. Это тот случай, когда лишние 150 долларов дадут вам не абстрактный «запас на будущее», а конкретную возможность запускать модели на 20-30% быстрее уже сегодня. Проверено.