Бенчмарк MLX на M3 Ultra: 335K токенов/сек и 155 ГБ памяти

Когда 256 ГБ памяти — это не роскошь, а необходимость

Цифры, которые вы сейчас увидите, заставят пересмотреть всё, что вы знали о локальном запуске LLM. 335 000 токенов в секунду. Пиковое потребление памяти — 155 гигабайт. Это не опечатка. Это результаты тестирования фреймворка MLX на Mac Studio с процессором M3 Ultra и 256 ГБ Unified Memory, опубликованные в начале февраля 2026 года.

Контекст важен: ещё год назад запуск 120-миллиардной модели на локальном железе казался фантастикой. Сегодня это рабочая реальность для тех, кто готов инвестировать в M3 Ultra и разобраться с тонкостями MLX 0.9.3.

Что такое MLX и почему все вдруг о нём заговорили

MLX — это не просто ещё один фреймворк для машинного обучения. Это специализированный инструмент от Apple, заточенный под архитектуру Apple Silicon. Если PyTorch и TensorFlow — это швейцарские ножи, то MLX — это скальпель нейрохирурга, созданный для одной задачи: максимально эффективно использовать Neural Engine и Unified Memory.

Главная фишка MLX 0.9.3 (актуальная версия на февраль 2026) — функция batch_generate(). Она не просто запускает несколько запросов параллельно. Она переосмысливает саму концепцию пакетной обработки для LLM.

💡

Unified Memory в M3 Ultra — это не просто много оперативки. Это единое адресное пространство, где CPU, GPU и Neural Engine работают с одними и теми же данными без копирования. Когда модель загружена в память, все 64 ядра Neural Engine получают к ней мгновенный доступ. В мире PC с раздельной RAM и VRAM такое невозможно в принципе.

Тестовый стенд: железо, которое стоит как квартира

Для понимания масштаба: тестирование проводилось на конфигурации, которую обычный пользователь не купит. Mac Studio с M3 Ultra (24 CPU ядра, 76 GPU ядер, 64 ядра Neural Engine), 256 ГБ Unified Memory с пропускной способностью 800 ГБ/с. Стоимость такой сборки начинается от 7000 долларов.

Модель: oss-120-b в 8-битной квантованности. Почему именно она? 120 миллиардов параметров в INT8 — это примерно 120 ГБ памяти плюс overhead для KV-кэша. На конфигурациях с 128 или даже 192 ГБ памяти эта модель либо не влезет совсем, либо будет работать на пределе с постоянным своппингом.

Параметр	Значение	Комментарий
Модель	oss-120-b 8-bit	Квантованная версия, качество близкое к FP16
Пакетный размер	64 запроса	Максимальная эффективность для M3 Ultra
Скорость генерации	335 000 токенов/сек	Пиковое значение, усреднённо — 290-310K
Пиковая память	155 ГБ	Из 256 ГБ доступных
Температура	0.7	Баланс креативности и предсказуемости

335 тысяч токенов в секунду: магия или просто математика?

Давайте разберёмся, откуда берутся эти цифры. 335K токенов/сек при batch size 64 — это примерно 5234 токена в секунду на один запрос. Звучит скромнее? А теперь представьте, что вам нужно обработать 64 чат-сессии одновременно. Или проанализировать 64 документа параллельно. Или сгенерировать 64 варианта ответа на один вопрос.

Вот где проявляется сила batch_generate(). Традиционные подходы (включая те, что описаны в нашей статье про Mac Studio M3 Ultra для локальных LLM) оптимизированы под 1-2 одновременных запроса. MLX переворачивает эту парадигму.

Важный нюанс: 335K токенов/сек — это скорость обработки, а не генерации «осмысленного» текста. На практике, при работе с реальными запросами разной длины, скорость падает до 250-280K токенов/сек. Но даже эти цифры в 5-7 раз выше, чем у лучших CPU-конфигураций на Epyc, о которых мы писали в сравнении Epyc 9175F и M3 Max.

Почему 155 ГБ памяти — это хорошо

На первый взгляд, потребление 155 ГБ из 256 кажется расточительным. На самом деле — это признак эффективной работы. MLX агрессивно использует KV-кэш для ускорения генерации. Каждый элемент в batch получает свой кэш, что даёт прирост скорости в 3-4 раза по сравнению с shared cache подходами.

Что происходит с оставшимися 100 ГБ? Операционная система, сам MLX фреймворк, мониторинговые инструменты. Плюс запас для всплесков. Если бы потребление приближалось к 240-250 ГБ, система начала бы активно использовать своппинг, и производительность рухнула бы в разы.

Для сравнения: запуск той же модели на конфигурации с 192 ГБ памяти (например, MacBook Pro 16" M4 Max с максимальной памятью) потребовал бы уменьшения batch size до 32-40, что снизило бы общую пропускную способность на 35-40%.

Альтернативы? Их практически нет

Когда речь заходит о запуске 120B моделей на локальном железе, вариантов мало:

MLX с M3 Ultra — текущий чемпион по цена/производительность для пакетной обработки
CUDA с 2×RTX 4090 (48 ГБ) — быстрее в single-inference, но сложнее в настройке, дороже в эксплуатации (энергопотребление 800+ ватт против 200 у Mac Studio)
Облачные инстансы (A100/H100) — аренда стоит от 15-20 долларов в час, что за месяц набегает в стоимость Mac Studio
Более лёгкие модели — например, Step-3.5-Flash-int4 или Minimax m2.1 DWQ, которые отлично работают на более доступном железе

Главное преимущество MLX — предсказуемость. Нет танцев с CUDA-драйверами, нет внезапных out-of-memory ошибок в середине обработки batch. Модель либо загружается и работает, либо нет. Всё.

Кому это нужно на самом деле

M3 Ultra с 256 ГБ — не для всех. Это инструмент для конкретных задач:

Исследовательские лаборатории, которые тестируют prompt-инжиниринг на больших моделях. Запустить 64 варианта промпта одновременно — это не роскошь, а способ сэкономить недели работы.
Компании, обрабатывающие документы. 335K токенов/сек — это примерно 250 страниц текста в секунду. Для юридических фирм, аналитических агентств это меняет правила игры.
Разработчики RAG-систем, которым нужна максимальная пропускная способность при переиндексировании.
Те, кто ненавидит облачные счета. Аппаратные инвестиции окупаются за 4-6 месяцев активного использования.

Если ваша работа — это occasional chatting с моделью, вам хватит и MacBook Pro 14 с M3 Pro с 18 ГБ памяти и более скромными моделями, как Gemma 3 270M.

Что будет дальше? Прогноз на 2026-2027

Нынешние результаты — не предел. Вот что ожидает нас в ближайшие 12-18 месяцев:

MLX 1.0 с нативной поддержкой speculative decoding — обещают увеличение скорости ещё на 40-60% для некоторых workload
M4 Ultra (если Apple его выпустит) с улучшенным Neural Engine и, возможно, 512 ГБ памяти в топовых конфигурациях
Более агрессивные квантования — модели типа oss-120-b в 6-bit или даже 4-bit с минимальной потерей качества
Распределённый MLX — возможность объединять несколько Mac через Thunderbolt 5, как мы упоминали в статье про MLX 26.2 и RDMA

Самый интересный тренд: демократизация доступа к большим моделям. То, что сегодня требует M3 Ultra за 7000 долларов, через год будет работать на M4 Max за 4000. А ещё через год — на железе, которое сегодня кажется нам бюджетным.

Финальный совет: не гонитесь за максимальными цифрами. 335K токенов/сек впечатляет, но спросите себя — нужно ли это именно вам? Часто оказывается, что 70B модель на M3 Max с 128 ГБ памяти (или даже 34B на более доступном железе) решает 95% практических задач. Оставшиеся 5% либо не стоят дополнительных инвестиций, либо их проще отдать в облако на разовую обработку.

Пока NVIDIA борется за каждый процент производительности в терраваттных системах, Apple тихо создала экосистему, где 120-миллиардная модель работает на столе в почти полной тишине. Это не будущее. Это уже настоящее. Просто очень дорогое.

335 тысяч токенов в секунду на M3 Ultra: как MLX выжимает из Mac всё, чего вы не ожидали