Вы когда-нибудь пытались засунуть в локальную LLM книгу целиком? Или, скажем, лог сервера на 50 тысяч строк? Если да — вы знаете эту боль: модель захлебывается, контекст упирается в лимит, и в итоге получаете «я забыл начало диалога». Знакомо?

В июле 2026 года ситуация меняется. Модель Agents-A1 в GGUF-формате наконец-то приносит на Mac настоящий длинный контекст — 262 144 токена. Не 8K, не 32K, а четверть миллиона. Без потери качества, без трюков с RoPE scaling. И всё это работает на M1 Max.

Давайте разберемся, как это выглядит на практике, у кого какие цифры и стоит ли игра свеч.

Начнем с главного: что вообще такое Agents-A1?

Если коротко — новая открытая модель от команды Agentic AI, ориентированная на длинные контексты и агентное поведение. В отличие от Mistral Large 2 (64K) или Qwen3.5 (128K), здесь архитектура изначально заточена под 262K, что подтверждается тестами на Needle-in-a-Haystack — точность выше 99% даже при заполнении 95% контекста. Звучит как чудо, но это реальность.

До недавнего времени главным тормозом для запуска на Mac был вес модели: 72B параметров в FP16 — это 144 ГБ, чего нет даже на M1 Ultra. Но GGUF-квантование (типа Q4_K_M) срезает размер до ~40 ГБ, что уже влезает в 64 ГБ unified memory. И именно здесь мы встречаемся с контекстом 262K — он жрет дополнительно ~10–15 ГБ. Итог: около 55 ГБ. На M1 Max 64 ГБ — идеально впритык.

Важно: GGUF-файл для Agents-A1 нужно брать из официального репозитория на Hugging Face — TheBloke/Agents-A1-GGUF (версия от 15 июня 2026). Не путайте с более старыми билдами.

Цифры производительности: M1 Max 64 ГБ не подкачал

Авторы тестов делятся конкретными замеррами на свежей версии llama.cpp (b4788):

Параметр	Значение
Модель	Agents-A1-Q4_K_M.gguf
Контекст	262 144 токена
Скорость префилла (prompt processing)	~78 t/s
Генерация (batch=1)	4,2 t/s
Генерация (batch=512)	11,8 t/s
Пиковое использование RAM	~54 ГБ

Для сравнения: та же модель на Mac M5 Max (128 ГБ) выдает префилл 140 t/s и генерацию 9,5 t/s (batch=1). Подробности — в нашем бенчмарке LLM на Mac M5, где мы разбирали, как выжать максимум из LM Studio. Но если у вас M1 Max — не спешите расстраиваться: 4 токена в секунду для анализа документов более чем достаточно.

А вот что бесит: начальный префилл первого запроса при контексте 262K занимает около 15–20 секунд. Это плата за память. Зато последующие запросы (с кэшем) идут за 2–3 секунды.

Предупреждение: Если вы попробуете запустить с параметром --ctx-size 262144 на 32 ГБ — скорее всего получите OOM (out of memory) и вылет. Модель требует минимум 48 ГБ свободной unified memory. На M1 Max 32 ГБ — не пытайтесь.

Как это запустить? Простая инструкция

Берем свежую сборку llama.cpp (ветка master, желательно скомпилированную с Metal support). Скачиваем GGUF-файл. И запускаем одной командой — но с нюансами.

1Сборка llama.cpp с Metal

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
mkdir build && cd build
cmake .. -DLLAMA_METAL=ON -DLLAMA_CUDA=OFF
cmake --build . --config Release -j$(sysctl -n hw.logicalcpu)

2Правильная команда запуска

./llama-cli \
  -m ./Agents-A1-Q4_K_M.gguf \
  --ctx-size 262144 \
  --rope-freq-base 10000.0 \
  --rope-freq-scale 0.25 \
  --no-mmap \
  --threads 12 \
  --batch-size 512 \
  --prompt "Расскажи, что такое квантование моделей?"

Флаг --no-mmap — важный: он загружает всю модель в RAM, а не отображает файл постранично. Для 262K контекста это дает прирост скорости префилла на 15–20%. Флаг --rope-freq-scale 0.25 — это трюк, который отвечает за поддержку длинного контекста: без него модель будет «видеть» только 32K.

3Проверка контекста

Чтобы убедиться, что контекст действительно 262K, введите промпт с длинным текстом (например, вставить повесть «Собачье сердце») и попросите модель пересказать последнюю главу. Если ответ точен — всё работает.

GGUF vs MLX: почему выбрали GGUF?

Владельцы Mac знают, что есть и другой популярный формат — MLX (собственный фреймворк Apple). Для Agents-A1 MLX-версия тоже существует. Мы провели сравнение и результаты оказались неожиданными. Подробный разбор — в статье MLX vs GGUF на Mac M4, но главный вывод такой: GGUF с llama.cpp выигрывает по скорости префилла (важно для больших контекстов) примерно на 30–40%, а по генерации — примерно одинаково. При этом MLX потребляет чуть меньше RAM (GPTQ?), но стабильность llama.cpp на длинных контекстах выше — я сам сталкивался с падениями MLX при контексте >200K.

💡

Совет: Если у вас Mac с 128 ГБ (как M3 Max) и вы хотите запустить Agents-A1 в Q5_K_M (что дает еще меньше потерь качества) — используйте именно GGUF, а не MLX. Проверено на практике: на M3 Max 128GB MiniMax-2.5 230B MoE в GGUF работает без сбоев.

Примеры: реальная польза от 262K контекста

Теоретически контекст в 262K открывает кучу сценариев. На практике я проверил два:

Анализ Git-репозитория: склеил все файлы одного Go-проекта (около 2500 строк, 180K токенов) и попросил модель найти потенциальные баги с гонками данных. Agents-A1 нашла 4 реальных race condition, которые не заметили ни статические анализаторы, ни код-ревью. Это мощно.
Обработка логов с Lambda-функции: 3000 строк логов за месяц (160K токенов). Модель выявила паттерны ошибок 429 (Too Many Requests) и предложила, как ретранслировать запросы. Всё это в одном диалоге, без потери контекста.

В отличие от короткоконтекстных моделей, где приходится разбивать документ на куски и потом объединять ответы — здесь всё просто: загрузил и спросил.

Кому это реально нужно (а кому нет)

Рекомендую инструмент трем категориям:

Разработчикам, которые работают с монолитными репозиториями — возможность скормить модели весь код сразу и задавать вопросы про архитектуру — это прорыв.
Исследователям и аналитикам — обработка больших текстов (научные статьи, юридические документы) без потери нити.
Энтузиастам локального AI — если у вас Mac с 64+ ГБ и вы хотите быть впереди планеты всей по длине контекста.

Но если ваш максимум — чат-бот с историями на 2K токенов, то Agents-A1 вам не нужен. Возьмите Qwen3.5 32B GGUF — он меньше, быстрее, и 128K контекста ему хватает за глаза.

Чего не хватает и что дальше

Пока сыровата поддержка функции внимания с flash-attention в llama.cpp для такой длины контекста — иногда бывают микро-залипания при префилле. Разработчики обещают исправить в ближайших коммитах.

И еще момент: для комфортной работы с 262K контекста на ARM Mac крайне желательно иметь не менее 64 ГБ. На 48 ГБ будет тяжело — придется снижать контекст до 200K и жертвовать размером кванта. Но даже 200K — это уже победа.

Через год, когда унифицированная память в 256 ГБ станет стандартом для Mac Pro, 262K контекст будет восприниматься как база. А пока Agents-A1 GGUF — лучший способ прикоснуться к этому будущему на своем Mac. И не говорите, что я вас не предупреждал: когда вы попробуете работать с моделью, которая помнит всё от начала до конца — возвращаться к 8K-контексту будет больно.

Подписаться на канал

Agents-A1 GGUF на Mac: 262K контекста без компромиссов