RunAnywhere.ai: 3x ускорение или маркетинг?

Сумасшедший обещает?

Стартап из YC выкатил движок RunAnywhere.ai и заявил, что он в три раза быстрее MLX на Apple Silicon. Звучит как очередной стартапный хайп, но когда ребята показывают код и свежие бенчмарки, волей-неволей начинаешь верить. Или нет? Давайте разбираться.

Apple MLX — уже стандарт де-факто для локального инференса на M-чипах. Мы не раз сравнивали его с другими решениями: бенчмарк 8 MLX-серверов для Qwen 3.5 на Mac M2 Max показал, кто король. А недавно MLX-AgentCore 2.0 разогнал агентов до 600 ток/с.

И тут выходит новичок, который даже не стесняется наступать на пятки. RunAnywhere.ai позиционируется как движок с рукописными ядрами (hand-written kernels), написанными на C++, которые минимально используют обёртки и максимально выжимают из Neural Engine и GPU.

🔥

Основатели утверждают: на моделях серии Qwen 2.5 (7B) и Llama 3 (8B) в fp16 они обгоняют MLX в 2.5–3.2 раза. На меньших моделях (1.5B) отрыв доходит до 4x. Но это на специфических сценариях с батчем 1 и малой задержкой. При больших батчах оптимизация упирается в пропускную способность памяти, и разница сглаживается.

Первое, что бросается в глаза — у RunAnywhere.ai нет поддержки контекстов длиннее 8K токенов в текущей версии. MLX спокойно переваривает 32K и 128K. Сравнили бы с vLLM-MLX, который выдает 464 ток/с на том же железе — там длинные контексты держатся бодро.

Главный козырь RunAnywhere.ai — рукописные ядра для конкретных архитектур трансформеров. Вместо универсальных Metal Performance Shaders они используют fused kernels (слияние нескольких операций) и агрессивное кэширование KV-cache. Это даёт выигрыш на микроуровне, но ограничивает совместимость. Пока движок работает только с Qwen, Llama, Gemma и Mistral. Для нишевых моделей вроде MiniMax-M2.1 придётся ждать патча или править руками.

В сети уже появились независимые тесты. Например, пользователь @macmllover на M4 Pro прогнал Llama 3.1 8B fp16: MLX выдал 78 ток/с, RunAnywhere.ai — 204 ток/с. Разница — 2.6x. На Qwen 2.5 7B — 3.1x. Выглядит убедительно, но! В бенчмарках используется синтетический промпт длиной 256 токенов и генерация 128 токенов. Если увеличить длину контекста до 4096, отрыв падает до 1.8x. Memory bound, ничего не поделаешь.

Что говорят скептики?

Главная претензия — неустойчивость. На форумах жалуются на краши при batch size > 1 на M1 (8GB) и странные артефакты на M2 Ultra. В MLX такие баги уже отловлены давно. К тому же RunAnywhere.ai пока не поддерживает модели в формате GGUF, которые использует Llama.cpp с Multi-Token Prediction — а там тоже ускорение, пусть и не такое громкое.

Ещё один камень — лицензия. RunAnywhere.ai распространяется с модифицированной LGPL, которая требует покупать коммерческую лицензию для продакшена на более чем 5 устройствах. Для стартапов из YC это нормально, но сообщество open-source напряглось. MLX — чистая MIT.

Для сравнения, на RTX 2000 Pro Blackwell 16GB (первые впечатления смотрим тут) подобные трюки с рукописными ядрами уже давно реализованы в CUDA-ядрышках. Но на Apple Silicon такой подход — свежий ветер. Возможно, через полгода MLX подтянет аналогичные оптимизации, и тогда RunAnywhere.ai потеряет своё преимущество. А пока он хорош для тех, кому нужно выжать последний токен из MacBook в сценариях реального времени (голосовые ассистенты, транскрибация).

В итоге: 3x — это не маркетинговая ложь, а очень узкая правда. Если ваш юзкейс — маленькие модели, короткие промпты, батч 1, то RunAnywhere.ai даст вам тот самый буст. Но для всего остального — MLX (и особенно его форк MLX-AgentCore 2.0) остаётся более зрелым и гибким инструментом. Следим за развитием: возможно, через пару релизов нас ждёт настоящая битва движков.

Подписаться на канал

RunAnywhere.ai: реальное 3x ускорение по сравнению с MLX или маркетинг? Обзор и анализ

Сумасшедший обещает?

Что говорят скептики?

Подписывайтесь на наш канал!