Cohere снова выстрелила. 14 июня 2026 года вышла North Mini Code 1.0 – 30B MoE-модель, заточенная под агентный кодинг. И это не очередная «ещё одна LLM», а реальная попытка сдвинуть рынок в сторону локальных, быстрых и контролируемых агентов. Лицензия Apache 2.0, архитектура A3B (7.7B активных параметров) и результаты, которые заставляют пересмотреть отношение к MoE в коде. Если вы устали от цен на API Claude и хотите что-то своё – присмотритесь.

Почему именно MoE и почему 30B?

В мире кодинг-моделей давно идёт война: плотные модели (типа CodeLlama) против разреженных экспертных. Cohere выбрала MoE, и это не случайно. North Mini Code использует 30B параметров total, но активирует лишь 7.7B на каждом токене. На практике это даёт скорость близкую к моделям 7B, но качество, как у 30B. Я уже писал про архитектурный парадокс Qwen-Coders, где MoE казался компромиссом. Здесь же компромисс превратился в оружие – специализированные эксперты для разных языков и паттернов кода.

Ключевая цифра: 30B total, 7.7B active. Это значит, что модель можно запустить на одной RTX 4090 с квантизацией или на двух A100 в полной точности. OLLAMA, llama.cpp – всё работает.

Бенчмарки: где North Mini Code обгоняет, а где подволакивает

Cohere опубликовала результаты на HumanEval+, MBPP+, SWE-bench и новом AgentBench-2026. Сравнение с Qwen2.5-Coder-32B-Instruct и DeepSeek-Coder-V3-Instruct показывает, что на чистом написании кода (HumanEval+) North Mini Code проигрывает Qwen на 2-3%. Но в сценариях, где агенту нужно редактировать файлы, вызывать инструменты и исправлять ошибки – разрыв превращается в победу. На AgentBench-2026 модель набрала 79.2% против 73.1% у Qwen и 71.5% у DeepSeek.

Почему? Потому что архитектура A3B (Active Attention with Agentic Context) включает специальные токены для памяти о предыдущих действиях агента. Это не просто генерация кода, а понимание контекста цепочки вызовов. Вспомните, как в материале про Opencode против Claude Code обсуждалось, что архитектура убивает производительность – здесь эту проблему решили на уровне модели.

Бенчмарк	North Mini Code	Qwen2.5-Coder-32B	DeepSeek-Coder-V3
HumanEval+ (pass@1)	81.3%	84.1%	82.7%
AgentBench-2026	79.2%	73.1%	71.5%
SWE-bench Verified	43.6%	40.2%	41.8%

Как это запустить и не сойти с ума

Модель уже на Hugging Face. Формат – transformers + weights в bfloat16. Для локального запуска рекомендую llama.cpp с квантизацией Q4_K_M – модель занимает около 15 GB VRAM. Если у вас карта на 24 GB – идеально. Вот базовый пример загрузки через Python:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "CohereForAI/north-mini-code-1.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="bfloat16",
    device_map="auto"
)

prompt = """<|agent|>Write a Python function to fetch all open issues from a GitHub repo using PyGithub."""
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0]))

Главный нюанс – правильный формат промпта. Модель обучена на темплейте с токенами <|agent|>, <|tool_call|> и <|observation|>. Если скормить ей обычный промпт без разметки, качество упадёт процентов на 30. Cohere выложила примеры интеграции с LangChain и CrewAI. Кстати, если вы хотите выжать максимум из маленькой модели, почитайте материал про 2x улучшение кодогенерации – техники контекстного инжиниринга работают и здесь.

Альтернативы: кто дышит в спину

Помимо Qwen и DeepSeek, стоит отметить MiniMax M2.1 – они выложили в опенсорс модель, которая тоже показывает отличные результаты в агентных сценариях. Но MiniMax использует плотную архитектуру 7B, что при схожем качестве даёт меньшую пропускную способность при высоких нагрузках. North Mini Code выигрывает за счёт MoE: больше экспертов – выше параллелизм.

Ещё один игрок – CodeLlama-34B-Instruct, но она безнадёжно устарела на фоне новых моделей. Если у вас нет 80 GB VRAM, даже не думайте. А вот North Mini Code можно запустить на RTX 4090 – это убивает аргумент «локальные модели слишком тяжёлые».

⚠️ Важно: модель всё ещё «сыровата» в многошаговых рассуждениях. Если агенту нужно 10+ шагов, она начинает путаться и галлюцинировать. Используйте технику «разбивки на подзадачи» – про это есть отличный гайд по Vibecoding, как заставить LLM меньше врать.

Кому эта модель реально нужна

Разработчикам AI-агентов, которые хотят уйти от привязки к проприетарным API (OpenAI, Anthropic). Apache 2.0 – ваша страховка от внезапного изменения цен.
Командам, строящим внутренние инструменты. Развернули модель на своих серверах – код не уходит наружу.
Исследователям, которые хотят понять, как работает A3B-архитектура. Сообщество уже форкает модель и дообучает под конкретные ЯП.

Лично меня бесит, что Cohere не добавила встроенную поддержку русскоязычных комментариев. Модель обучалась на основном English-коде, и если в коде есть русские переменные или докстринги, модель может «заикаться». Но это лечится через fine-tuning, благо вес модели позволяет.

И последнее: не ждите, что North Mini Code заменит Claude Code в продакшн-агентах «из коробки». Но как база для собственного агента – это лучший вариант из доступных на сегодня. Я бы посоветовал скачать модель и попробовать её в паре с OpenCode, о котором мы писали ранее. Связка MoE + мультиагентная архитектура – это то, что выстрелит в 2027 году.

Если вы всё ещё сомневаетесь, стоит ли заморачиваться с локальным запуском – прочитайте статью про создание кодинг-агента с 87% на бенчмарках на модели 4B. Там показано, что размер – не главное. А North Mini Code даёт вам запас по качеству без потери скорости.

Подписаться на канал

North Mini Code: 30B MoE-модель от Cohere для агентного кодинга – бенчмарки и запуск

Почему именно MoE и почему 30B?

Бенчмарки: где North Mini Code обгоняет, а где подволакивает

Как это запустить и не сойти с ума

Альтернативы: кто дышит в спину

Кому эта модель реально нужна

Подписывайтесь на наш канал!