Cohere Command A+ 2026: обзор и локальный запуск | AiManual
AiManual Logo Ai / Manual.
20 Май 2026 Новости

Cohere выпустила Command A+ 2026: что умеет новая модель и как запустить её локально

Канадский стартап Cohere представил Command A+ 2026 — преемника Command R+. Разбираемся, чем новая модель лучше, и как запустить её на своём железе.

Канадский стартап Cohere, основанный бывшими инженерами Google Brain, сделал то, чего от него ждали с прошлого года — выпустил преемника легендарной Command R+. Новая модель получила имя Command A+ 2026 и уже доступна на HuggingFace в формате bf16. Если коротко: это не просто обновление, а смена философии. Ставка на более глубокое понимание контекста, оптимизацию под enterprise-задачи и, что особенно приятно, реальную возможность запустить модель на своём компьютере.

Зачем Cohere вообще полезла в локальный деплой? Всё просто: рынок корпоративных AI-решений перенасыщен облачными API, а клиенты хотят приватности. Command A+ как раз закрывает этот запрос. Модель обучали с прицелом на работу с длинными документами, многопоточные диалоги и генерацию кода — то есть те самые задачи, которые обычно решают с помощью локальных инструментов вроде LM Studio или llama.cpp.

Главное отличие от предшественника — расширенное окно контекста: 256 тысяч токенов. Это позволяет модели «проглатывать» целые книги и код-базы среднего размера, не теряя нить рассуждения.

Характеристики Command A+ 2026

Параметр Command A+ 2026 Command R+ (предыдущая)
Параметры 104B 104B
Контекстное окно 256k 128k
Языковая поддержка 10 языков (включая русский, китайский, арабский) 7 языков
Формат на HuggingFace bf16 (30 GB), также доступны квантованные версии bf16, int8, int4
Метод сжатия GPTQ, AWQ, GGUF GPTQ, AWQ, GGUF

Цифры крутые, но главное — качество. Cohere заявляет, что Command A+ на 15% лучше справляется с задачей RAG (Retrieval Augmented Generation) и даёт на 20% меньше галлюцинаций при работе с фактами. На практике это означает, что модель реже выдумывает цитаты и ссылки — больная тема для всех LLM.

Внимание: для локального запуска bf16-версии потребуется видеокарта с 40+ ГБ VRAM (например, NVIDIA A100 или две RTX 4090). Если у вас скромнее железо — присмотритесь к квантованным вариантам Q4_K_M (около 12 ГБ).

Что изменилось под капотом?

Инженеры Cohere переработали архитектуру attention-механизма, добавив sparse attention для сверхдлинных контекстов. Раньше модель «задыхалась» на 200+ тысячах токенов — теперь держит всё окно без потери производительности. Кроме того, улучшили support tool-use: Command A+ научилась вызывать функции и API более стабильно. Это делает её идеальным кандидатом для создания локальных агентов, которые не требуют облачных подписок.

Ещё один приятный сюрприз — модель отлично понимает русский язык. На тестах SuperGLUE она показывает результаты, сравнимые с Llama 3.1 70B, но при этом использует вдвое меньше параметров. Разработчики из Cohere утверждают, что добились этого за счёт нового токенизатора, который лучше справляется с кириллицей и иероглифами.

Как запустить Command A+ локально?

Вся прелесть ситуации — модель открыта под лицензией Cohere Research License, разрешающей некоммерческое использование и модификацию. На HuggingFace лежат веса в bf16, а энтузиасты уже собрали квантованные версии в GGUF и AWQ. Для запуска подойдут те же инструменты, что и для других локальных LLM.

  1. Скачайте модель — с HuggingFace по ссылке CohereForAI/c4ai-command-a-plus-v1 (около 30 ГБ в bf16).
  2. Выберите инструмент: LM Studio если вы новичок, llama.cpp если хотите максимальной производительности.
  3. Загрузите квантованную версию (например, Q4_K_M) если у вас меньше 40 ГБ VRAM. На сайте TheBloke уже доступны готовые GGUF-файлы.
  4. Запустите — в LM Studio достаточно открыть папку с моделью, в llama.cpp — запустить скрипт main с флагом -m путь_к_gguf.

Совет: для полноценной работы с русским текстом добавьте в промпт инструкцию на русском — модель очень чувствительна к формулировкам и лучше реагирует на естественный язык, а не на шаблоны.

Стоит ли переходить с Command R+?

Если вы используете Cohere для рабочих задач — определённо да. Модель стала быстрее, точнее и стабильнее. Если же вы экспериментируете с локальными LLM, Command A+ — отличная альтернатива Llama и Qwen, особенно если нужна поддержка многих языков «из коробки». Единственный минус — требовательность к железу. Но с ростом популярности квантованных версий этот порог снижается.

Лично я уже перетащил свой код-генератор на Command A+ — результаты заметно лучше, чем на Command R+. Особенно радует, что модель реже «зависает» на длинных диалогах и не пытается съехать на английский, когда просишь написать по-русски.

Что дальше? Скорее всего, Cohere выпустит версию с 256B параметров до конца года. Но уже сейчас Command A+ выглядит как самый сбалансированный вариант для enterprise и энтузиастов, которые хотят контролировать свои данные.

Подписаться на канал