Cohere снова удивляет: мало того, что они выкатили Cohere Coder в ранний доступ, так теперь еще и открыли веса North Mini Code 1.0 — 30-миллиардной модели с архитектурой A3B (3 миллиарда активных параметров). Если вы следите за трендом эффективных кодинг-моделей вроде MiniMax M2.1 или Maincoder-1B, то эта новость — прямое попадание.
A3B — не просто буквы
Расшифровка простая: 30 миллиардов параметров в сумме, но при каждом forward pass активируется только 3 миллиарда. Это не очередной маркетинговый трюк — это реальная экономия и скорость. MoE (Mixture of Experts) здесь реализована так, что модель тратит вычислительные ресурсы только на нужные «экспертные» подмножества. На практике это дает скорость, сравнимую с 3B dense-моделью, но качество ответа — как у честных 30B.
Архитектура A3B по сути — та же идея, что и у MiniMax M2.1, только с другим балансом между числом экспертов и размером каждого.
Что под капотом?
Cohere выложили веса на HuggingFace под лицензией CC BY-NC 4.0 (некоммерческое использование бесплатно). Модель обучена на смеси публичных кодовых репозиториев и синтетических данных. Поддерживает контекст до 8192 токенов — этого хватает для большинства задач, но уступает гигантам вроде MiniCPM-o-4.5 с его 128K.
| Характеристика | Значение |
|---|---|
| Архитектура | MoE (A3B) — 30B total, 3B active |
| Размер в FP16 | ~60 GB (с квантованием 4-bit ~15 GB) |
| Контекст | 8,192 токена |
| Лицензия | CC BY-NC 4.0 (веса), коммерция — отдельно |
| Формат | SafeTensors + поддержка transformers |
Как попробовать?
Загружаете через HuggingFace Hub, устанавливаете transformers от Cohere (форкнутая версия). Никакого шаманства:
pip install git+https://github.com/cohere-ai/transformers.git
python -c "from transformers import AutoModelForCausalLM, AutoTokenizer; model = AutoModelForCausalLM.from_pretrained('CohereForAI/north-mini-code-1.0-30b-a3b', device_map='auto')"
На одну GPU с 24 GB памяти модель в 4-bit квантовании (через bitsandbytes) влезает целиком. Впечатляет, да? Но не обольщайтесь: скорость генерации будет ниже, чем у Falcon-H1-Tiny с его 90 млн — тут 3B активных параметров, хоть и не 30.
Бенчмарки и реальность
Cohere заявляет HumanEval pass@1 около 72%, MBPP — 68% (на момент публикации). Это ставит модель в один ряд с DeepSeek-Coder-V2-Instruct (69% HumanEval) и Qwen2.5-Coder-32B-Instruct (73%). Но важный нюанс: North Mini Code заметно быстрее на инференсе — сказалась A3B архитектура.
Кому это нужно?
Во-первых, разработчикам, которым нужна локальная кодовая помощница на ноутбуке с RTX 4090. Во-вторых, исследователям, которые хотят дообучать модель под свои задачи — 3B активных параметров делают fine-tuning дешевле, чем у конкурентов с полными 30B. В-третьих, всем, кто устал от rate limits облачных API.
Но есть нюанс: лицензия CC BY-NC не позволяет коммерческое использование без покупки платной лицензии у Cohere. Для стартапов и инди-разработчиков это может стать камнем преткновения, особенно на фоне полностью открытых моделей вроде FrogMini от Microsoft (аудиторная модель на Qwen3-14B с лицензией MIT).
Бери и делай: промпты для старта
Первый же мой тест — рефакторинг легаси-функции на Python. Модель не просто переписала код, а выдала три альтернативы с комментариями по trade-off'ам. Второй тест — генерация SQL-запроса с несколькими JOIN и оконными функциями. Справилась с первого раза, хотя раньше Cohere Coder (закрытая модель) на этом же примере тупил.
Вот как выглядит простейшая инференс-сессия (уже без кода — чистый текстовый результат):
Промпт: "Напиши декоратор Python для логирования времени выполнения функции с поддержкой асинхронных функций."
Ответ: Модель сгенерировала рабочий декоратор за 3 секунды. Код корректно обрабатывал asyncio и обычные функции, использовал time.perf_counter, логировал через logging, добавил тайп-хинты.
Такие результаты подтверждают, что North Mini Code — не просто очередная экспериментальная игрушка. Это реальный инструмент для автоматизации рутины.
Мой прогноз: в ближайшие полгода мы увидим шквал fine-tune'ов этой модели под разные языки и фреймворки. A3B — идеальная основа для специализированных агентов, особенно если Cohere (или сообщество) выпустит версию с коммерческой лицензией. А пока — качайте веса и пробуйте. Только не забудьте пополнить счет за электричество: 30B параметров в памяти — это не шутки.