Когда 256 ГБ памяти — это не роскошь, а необходимость
Цифры, которые вы сейчас увидите, заставят пересмотреть всё, что вы знали о локальном запуске LLM. 335 000 токенов в секунду. Пиковое потребление памяти — 155 гигабайт. Это не опечатка. Это результаты тестирования фреймворка MLX на Mac Studio с процессором M3 Ultra и 256 ГБ Unified Memory, опубликованные в начале февраля 2026 года.
Контекст важен: ещё год назад запуск 120-миллиардной модели на локальном железе казался фантастикой. Сегодня это рабочая реальность для тех, кто готов инвестировать в M3 Ultra и разобраться с тонкостями MLX 0.9.3.
Что такое MLX и почему все вдруг о нём заговорили
MLX — это не просто ещё один фреймворк для машинного обучения. Это специализированный инструмент от Apple, заточенный под архитектуру Apple Silicon. Если PyTorch и TensorFlow — это швейцарские ножи, то MLX — это скальпель нейрохирурга, созданный для одной задачи: максимально эффективно использовать Neural Engine и Unified Memory.
Главная фишка MLX 0.9.3 (актуальная версия на февраль 2026) — функция batch_generate(). Она не просто запускает несколько запросов параллельно. Она переосмысливает саму концепцию пакетной обработки для LLM.
Тестовый стенд: железо, которое стоит как квартира
Для понимания масштаба: тестирование проводилось на конфигурации, которую обычный пользователь не купит. Mac Studio с M3 Ultra (24 CPU ядра, 76 GPU ядер, 64 ядра Neural Engine), 256 ГБ Unified Memory с пропускной способностью 800 ГБ/с. Стоимость такой сборки начинается от 7000 долларов.
Модель: oss-120-b в 8-битной квантованности. Почему именно она? 120 миллиардов параметров в INT8 — это примерно 120 ГБ памяти плюс overhead для KV-кэша. На конфигурациях с 128 или даже 192 ГБ памяти эта модель либо не влезет совсем, либо будет работать на пределе с постоянным своппингом.
| Параметр | Значение | Комментарий |
|---|---|---|
| Модель | oss-120-b 8-bit | Квантованная версия, качество близкое к FP16 |
| Пакетный размер | 64 запроса | Максимальная эффективность для M3 Ultra |
| Скорость генерации | 335 000 токенов/сек | Пиковое значение, усреднённо — 290-310K |
| Пиковая память | 155 ГБ | Из 256 ГБ доступных |
| Температура | 0.7 | Баланс креативности и предсказуемости |
335 тысяч токенов в секунду: магия или просто математика?
Давайте разберёмся, откуда берутся эти цифры. 335K токенов/сек при batch size 64 — это примерно 5234 токена в секунду на один запрос. Звучит скромнее? А теперь представьте, что вам нужно обработать 64 чат-сессии одновременно. Или проанализировать 64 документа параллельно. Или сгенерировать 64 варианта ответа на один вопрос.
Вот где проявляется сила batch_generate(). Традиционные подходы (включая те, что описаны в нашей статье про Mac Studio M3 Ultra для локальных LLM) оптимизированы под 1-2 одновременных запроса. MLX переворачивает эту парадигму.
Важный нюанс: 335K токенов/сек — это скорость обработки, а не генерации «осмысленного» текста. На практике, при работе с реальными запросами разной длины, скорость падает до 250-280K токенов/сек. Но даже эти цифры в 5-7 раз выше, чем у лучших CPU-конфигураций на Epyc, о которых мы писали в сравнении Epyc 9175F и M3 Max.
Почему 155 ГБ памяти — это хорошо
На первый взгляд, потребление 155 ГБ из 256 кажется расточительным. На самом деле — это признак эффективной работы. MLX агрессивно использует KV-кэш для ускорения генерации. Каждый элемент в batch получает свой кэш, что даёт прирост скорости в 3-4 раза по сравнению с shared cache подходами.
Что происходит с оставшимися 100 ГБ? Операционная система, сам MLX фреймворк, мониторинговые инструменты. Плюс запас для всплесков. Если бы потребление приближалось к 240-250 ГБ, система начала бы активно использовать своппинг, и производительность рухнула бы в разы.
Для сравнения: запуск той же модели на конфигурации с 192 ГБ памяти (например, MacBook Pro 16" M4 Max с максимальной памятью) потребовал бы уменьшения batch size до 32-40, что снизило бы общую пропускную способность на 35-40%.
Альтернативы? Их практически нет
Когда речь заходит о запуске 120B моделей на локальном железе, вариантов мало:
- MLX с M3 Ultra — текущий чемпион по цена/производительность для пакетной обработки
- CUDA с 2×RTX 4090 (48 ГБ) — быстрее в single-inference, но сложнее в настройке, дороже в эксплуатации (энергопотребление 800+ ватт против 200 у Mac Studio)
- Облачные инстансы (A100/H100) — аренда стоит от 15-20 долларов в час, что за месяц набегает в стоимость Mac Studio
- Более лёгкие модели — например, Step-3.5-Flash-int4 или Minimax m2.1 DWQ, которые отлично работают на более доступном железе
Главное преимущество MLX — предсказуемость. Нет танцев с CUDA-драйверами, нет внезапных out-of-memory ошибок в середине обработки batch. Модель либо загружается и работает, либо нет. Всё.
Кому это нужно на самом деле
M3 Ultra с 256 ГБ — не для всех. Это инструмент для конкретных задач:
- Исследовательские лаборатории, которые тестируют prompt-инжиниринг на больших моделях. Запустить 64 варианта промпта одновременно — это не роскошь, а способ сэкономить недели работы.
- Компании, обрабатывающие документы. 335K токенов/сек — это примерно 250 страниц текста в секунду. Для юридических фирм, аналитических агентств это меняет правила игры.
- Разработчики RAG-систем, которым нужна максимальная пропускная способность при переиндексировании.
- Те, кто ненавидит облачные счета. Аппаратные инвестиции окупаются за 4-6 месяцев активного использования.
Если ваша работа — это occasional chatting с моделью, вам хватит и MacBook Pro 14 с M3 Pro с 18 ГБ памяти и более скромными моделями, как Gemma 3 270M.
Что будет дальше? Прогноз на 2026-2027
Нынешние результаты — не предел. Вот что ожидает нас в ближайшие 12-18 месяцев:
- MLX 1.0 с нативной поддержкой speculative decoding — обещают увеличение скорости ещё на 40-60% для некоторых workload
- M4 Ultra (если Apple его выпустит) с улучшенным Neural Engine и, возможно, 512 ГБ памяти в топовых конфигурациях
- Более агрессивные квантования — модели типа oss-120-b в 6-bit или даже 4-bit с минимальной потерей качества
- Распределённый MLX — возможность объединять несколько Mac через Thunderbolt 5, как мы упоминали в статье про MLX 26.2 и RDMA
Самый интересный тренд: демократизация доступа к большим моделям. То, что сегодня требует M3 Ultra за 7000 долларов, через год будет работать на M4 Max за 4000. А ещё через год — на железе, которое сегодня кажется нам бюджетным.
Финальный совет: не гонитесь за максимальными цифрами. 335K токенов/сек впечатляет, но спросите себя — нужно ли это именно вам? Часто оказывается, что 70B модель на M3 Max с 128 ГБ памяти (или даже 34B на более доступном железе) решает 95% практических задач. Оставшиеся 5% либо не стоят дополнительных инвестиций, либо их проще отдать в облако на разовую обработку.
Пока NVIDIA борется за каждый процент производительности в терраваттных системах, Apple тихо создала экосистему, где 120-миллиардная модель работает на столе в почти полной тишине. Это не будущее. Это уже настоящее. Просто очень дорогое.