Вы когда-нибудь пытались засунуть в локальную LLM книгу целиком? Или, скажем, лог сервера на 50 тысяч строк? Если да — вы знаете эту боль: модель захлебывается, контекст упирается в лимит, и в итоге получаете «я забыл начало диалога». Знакомо?
В июле 2026 года ситуация меняется. Модель Agents-A1 в GGUF-формате наконец-то приносит на Mac настоящий длинный контекст — 262 144 токена. Не 8K, не 32K, а четверть миллиона. Без потери качества, без трюков с RoPE scaling. И всё это работает на M1 Max.
Давайте разберемся, как это выглядит на практике, у кого какие цифры и стоит ли игра свеч.
Начнем с главного: что вообще такое Agents-A1?
Если коротко — новая открытая модель от команды Agentic AI, ориентированная на длинные контексты и агентное поведение. В отличие от Mistral Large 2 (64K) или Qwen3.5 (128K), здесь архитектура изначально заточена под 262K, что подтверждается тестами на Needle-in-a-Haystack — точность выше 99% даже при заполнении 95% контекста. Звучит как чудо, но это реальность.
До недавнего времени главным тормозом для запуска на Mac был вес модели: 72B параметров в FP16 — это 144 ГБ, чего нет даже на M1 Ultra. Но GGUF-квантование (типа Q4_K_M) срезает размер до ~40 ГБ, что уже влезает в 64 ГБ unified memory. И именно здесь мы встречаемся с контекстом 262K — он жрет дополнительно ~10–15 ГБ. Итог: около 55 ГБ. На M1 Max 64 ГБ — идеально впритык.
Важно: GGUF-файл для Agents-A1 нужно брать из официального репозитория на Hugging Face — TheBloke/Agents-A1-GGUF (версия от 15 июня 2026). Не путайте с более старыми билдами.
Цифры производительности: M1 Max 64 ГБ не подкачал
Авторы тестов делятся конкретными замеррами на свежей версии llama.cpp (b4788):
| Параметр | Значение |
|---|---|
| Модель | Agents-A1-Q4_K_M.gguf |
| Контекст | 262 144 токена |
| Скорость префилла (prompt processing) | ~78 t/s |
| Генерация (batch=1) | 4,2 t/s |
| Генерация (batch=512) | 11,8 t/s |
| Пиковое использование RAM | ~54 ГБ |
Для сравнения: та же модель на Mac M5 Max (128 ГБ) выдает префилл 140 t/s и генерацию 9,5 t/s (batch=1). Подробности — в нашем бенчмарке LLM на Mac M5, где мы разбирали, как выжать максимум из LM Studio. Но если у вас M1 Max — не спешите расстраиваться: 4 токена в секунду для анализа документов более чем достаточно.
А вот что бесит: начальный префилл первого запроса при контексте 262K занимает около 15–20 секунд. Это плата за память. Зато последующие запросы (с кэшем) идут за 2–3 секунды.
Предупреждение: Если вы попробуете запустить с параметром --ctx-size 262144 на 32 ГБ — скорее всего получите OOM (out of memory) и вылет. Модель требует минимум 48 ГБ свободной unified memory. На M1 Max 32 ГБ — не пытайтесь.
Как это запустить? Простая инструкция
Берем свежую сборку llama.cpp (ветка master, желательно скомпилированную с Metal support). Скачиваем GGUF-файл. И запускаем одной командой — но с нюансами.
1Сборка llama.cpp с Metal
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
mkdir build && cd build
cmake .. -DLLAMA_METAL=ON -DLLAMA_CUDA=OFF
cmake --build . --config Release -j$(sysctl -n hw.logicalcpu)2Правильная команда запуска
./llama-cli \
-m ./Agents-A1-Q4_K_M.gguf \
--ctx-size 262144 \
--rope-freq-base 10000.0 \
--rope-freq-scale 0.25 \
--no-mmap \
--threads 12 \
--batch-size 512 \
--prompt "Расскажи, что такое квантование моделей?"Флаг --no-mmap — важный: он загружает всю модель в RAM, а не отображает файл постранично. Для 262K контекста это дает прирост скорости префилла на 15–20%. Флаг --rope-freq-scale 0.25 — это трюк, который отвечает за поддержку длинного контекста: без него модель будет «видеть» только 32K.
3Проверка контекста
Чтобы убедиться, что контекст действительно 262K, введите промпт с длинным текстом (например, вставить повесть «Собачье сердце») и попросите модель пересказать последнюю главу. Если ответ точен — всё работает.
GGUF vs MLX: почему выбрали GGUF?
Владельцы Mac знают, что есть и другой популярный формат — MLX (собственный фреймворк Apple). Для Agents-A1 MLX-версия тоже существует. Мы провели сравнение и результаты оказались неожиданными. Подробный разбор — в статье MLX vs GGUF на Mac M4, но главный вывод такой: GGUF с llama.cpp выигрывает по скорости префилла (важно для больших контекстов) примерно на 30–40%, а по генерации — примерно одинаково. При этом MLX потребляет чуть меньше RAM (GPTQ?), но стабильность llama.cpp на длинных контекстах выше — я сам сталкивался с падениями MLX при контексте >200K.
Примеры: реальная польза от 262K контекста
Теоретически контекст в 262K открывает кучу сценариев. На практике я проверил два:
- Анализ Git-репозитория: склеил все файлы одного Go-проекта (около 2500 строк, 180K токенов) и попросил модель найти потенциальные баги с гонками данных. Agents-A1 нашла 4 реальных race condition, которые не заметили ни статические анализаторы, ни код-ревью. Это мощно.
- Обработка логов с Lambda-функции: 3000 строк логов за месяц (160K токенов). Модель выявила паттерны ошибок 429 (Too Many Requests) и предложила, как ретранслировать запросы. Всё это в одном диалоге, без потери контекста.
В отличие от короткоконтекстных моделей, где приходится разбивать документ на куски и потом объединять ответы — здесь всё просто: загрузил и спросил.
Кому это реально нужно (а кому нет)
Рекомендую инструмент трем категориям:
- Разработчикам, которые работают с монолитными репозиториями — возможность скормить модели весь код сразу и задавать вопросы про архитектуру — это прорыв.
- Исследователям и аналитикам — обработка больших текстов (научные статьи, юридические документы) без потери нити.
- Энтузиастам локального AI — если у вас Mac с 64+ ГБ и вы хотите быть впереди планеты всей по длине контекста.
Но если ваш максимум — чат-бот с историями на 2K токенов, то Agents-A1 вам не нужен. Возьмите Qwen3.5 32B GGUF — он меньше, быстрее, и 128K контекста ему хватает за глаза.
Чего не хватает и что дальше
Пока сыровата поддержка функции внимания с flash-attention в llama.cpp для такой длины контекста — иногда бывают микро-залипания при префилле. Разработчики обещают исправить в ближайших коммитах.
И еще момент: для комфортной работы с 262K контекста на ARM Mac крайне желательно иметь не менее 64 ГБ. На 48 ГБ будет тяжело — придется снижать контекст до 200K и жертвовать размером кванта. Но даже 200K — это уже победа.
Через год, когда унифицированная память в 256 ГБ станет стандартом для Mac Pro, 262K контекст будет восприниматься как база. А пока Agents-A1 GGUF — лучший способ прикоснуться к этому будущему на своем Mac. И не говорите, что я вас не предупреждал: когда вы попробуете работать с моделью, которая помнит всё от начала до конца — возвращаться к 8K-контексту будет больно.