Что это за зверь и почему все о нем говорят?

Arcee AI, стартап, о котором мало кто слышал до прошлой недели, выкатил Trinity Large Preview. Цифры звучат как шутка: 400 миллиардов параметров в общей сложности, но активируется только 13 миллиардов за раз. Это архитектура Mixture of Experts (MoE), где каждый запрос обрабатывает небольшая группа "экспертов".

Самое безумное? Модель доступна бесплатно через OpenRouter API, а веса распространяются под лицензией Apache 2.0. Это не тестовая игрушка — это полноценная модель уровня GPT-4, которую можно запустить локально или через облако, не платя ни копейки за токены.

Актуальность на 29.01.2026: Trinity Large Preview — последняя версия модели от Arcee AI, выпущенная в январе 2026 года. Это не урезанная демо-версия, а полноценный превью с открытыми весами.

Техническая магия: как 400B превращаются в 13B

MoE-архитектура — это не новинка. Google использовал ее в GLaM, Meta в Mixtral. Но Arcee довел идею до логического предела. В Trinity 400B параметров разбиты на 64 эксперта. Для каждого токена в запросе роутер выбирает только 2 из них. Вот и получается: (400B / 64) * 2 ≈ 13B активных параметров.

На практике это значит, что модель работает почти так же быстро, как 13B-модель, но с интеллектом, приближенным к 400B монолиту. Памяти нужно меньше, вычислений — меньше, а качество ответов остается на высоте. Хитро, правда?

💡

Если хотите глубже понять, как маленький стартап смог создать такую модель, почитайте нашу статью про Trinity 400B от Arcee AI. Там разбираем технические и бизнес-аспекты этого прорыва.

OpenRouter: бесплатный пропуск в клуб гигантов

Вот где начинается самое интересное. Arcee не стал городить свой API-шлюз. Вместо этого они интегрировали Trinity прямо в OpenRouter — агрегатор моделей, который знает каждый, кто работал с LLM API.

Заходите на OpenRouter, выбираете "arcee-trinity-large-preview" из списка моделей — и все. Никакой регистрации у Arcee, никаких ключей API. Используете свой существующий OpenRouter API ключ (или получаете новый, это бесплатно).

Провайдер	Модель	Цена за 1M токенов (ввод)	Лицензия
Arcee AI	Trinity Large Preview	Бесплатно	Apache 2.0
OpenAI	GPT-4o (2026)	$5.00	Проприетарная
Anthropic	Claude 3.7 Sonnet	$3.75	Проприетарная
Meta	Llama 3.3 405B	$0.80 (через провайдеров)	Llama 3 Community License

Бесплатно. Повторим: бесплатно. Никаких скрытых лимитов, никаких "первые 1000 токенов". Пока модель в превью-режиме — пользуйтесь на здоровье. Arcee явно хочет, чтобы разработчики протестировали Trinity и влюбились в нее.

Тест-драйв: что умеет эта штука на самом деле

Я потратил пару часов, гоняя Trinity через OpenRouter API. Вот что получилось:

Код на Python? Легко

Попросил написать асинхронный парсер на aiohttp с обработкой ошибок и кэшированием в Redis. Trinity выдала чистый, рабочий код с комментариями. Не идеально — забыла про таймауты, — но на 80% готово к продакшену.

Анализ бизнес-кейса

Дал выдержку из финансового отчета стартапа и попросил выделить риски. Модель не просто пересказала цифры — она связала burn rate с этапом развития компании и предложила три конкретных сценария сокращения расходов.

Творчество с ограничениями

"Напиши историю про ИИ, который боится темноты, в стиле Рэя Брэдбери, не более 300 слов". Получилось атмосферно, с правильными литературными приемами. Не шедевр, но явно лучше, чем у большинства 70B-моделей.

Где Trinity спотыкается: Модель иногда "галлюцинирует" с цитатами и датами. В одном ответе она уверенно сослалась на несуществующее исследование MIT 2024 года. Всегда проверяйте факты!

А как насчет альтернатив? Есть же Llama, Mixtral, GLM...

Конечно, есть. Но Trinity занимает уникальную нишу:

Llama 3.3 405B от Meta: Мощнее в некоторых тестах, но и тяжелее. Запустить локально почти нереально, а через API стоит денег. Лицензия Llama 3 Community License имеет ограничения для коммерческого использования.
Mixtral 8x22B: Классика MoE, проверенная временем. Но 176B параметров против 400B у Trinity. И да, Mixtral тоже не бесплатен через API.
GLM4.7 REAP от Cerebras: Интересная технология обрезки весов, о которой мы писали ранее. Но GLM4.7 — это 7B параметров, совсем другой масштаб.
Проприетарные модели (GPT-4o, Claude 3.7): Часто показывают лучшее качество, но вы платите $3-5 за каждый миллион токенов. И ваши данные уходят в черный ящик.

Trinity выигрывает по сочетанию "качество/цена/открытость". Бесплатный API + Apache 2.0 + уровень качества близкий к топовым проприетарным моделям. Такого раньше не было.

Кому подойдет Trinity Large Preview?

Не всем. Вот кому стоит попробовать прямо сейчас:

Стартапы с нулевым бюджетом на AI: Хотите интегрировать LLM в продукт, но нет $500 в месяц на API? Trinity — ваш выбор. Бесплатно, пока работает превью.
Исследователи и студенты: Нужна мощная модель для экспериментов? Качайте веса с HuggingFace (они уже там), запускайте локально или используйте OpenRouter.
Разработчики, тестирующие AI-фичи: Прежде чем платить за GPT-4, проверьте, справится ли Trinity с вашей задачей. В 70% случаев справится.
Компании, заботящиеся о приватности: Apache 2.0 позволяет модифицировать модель и запускать ее на своих серверах. Данные никуда не утекают.

А вот кому лучше подождать: если вам нужна 100% точность в юридических или медицинских вопросах, или если вы уже платите за GPT-4 и полностью довольны. Trinity еще сыровата для mission-critical задач.

💡

Планируете использовать несколько моделей через один API? Посмотрите нашу статью про AI Gateway решения. Там сравниваем Vercel AI SDK, LiteLLM и сам OpenRouter для построения отказоустойчивых AI-приложений.

Локальный запуск: реально ли это на домашнем железе?

Веса модели доступны на HuggingFace. Теоретически можно скачать и запустить. Практически? Нужно около 80 ГБ VRAM для загрузки в FP16. Или 40 ГБ в 8-битном квантовании.

У вас нет двух RTX 4090? Есть варианты:

llama.cpp с Q4_K_M квантованием: Сожмет модель до ~20 ГБ. Запустится на одной карте с 24 ГБ VRAM. Скорость будет 2-5 токенов в секунду, но работать будет.
Облачные инстансы с GPU: Запустите на vast.ai или runpod. Инстанс с A100 80GB обойдется в $1.5-2 в час. Дороговато для постоянной работы, но для экспериментов сойдет.
CPU-режим с большим объемом RAM: Если у вас 128+ ГБ оперативной памяти, можно попробовать. Ожидайте 0.5-1 токен в секунду. Медленно, но для batch-обработки документов пойдет.

Честно? Для большинства пользователей OpenRouter API — оптимальный выбор. Не нужно возиться с железом, квантованием, OOM errors. Просто отправляете запрос и получаете ответ.

Что будет, когда превью закончится?

Вот главный вопрос. Arcee не раскрывает планы по монетизации. Варианты:

Оставят бесплатный тариф с лимитами (как у OpenAI в начале). Скажем, 1000 запросов в день бесплатно, дальше — платно.
Сделают платную подписку для коммерческого использования, но оставят бесплатный доступ для исследователей.
Полностью переведут на платную основу, но оставят веса под Apache 2.0. Вы сможете запускать локально, но API станет платным.

Мое предсказание? Arcee выберет гибридную модель. Бесплатный API с разумными лимитами для привлечения разработчиков + платные тарифы для бизнеса + открытые веса для сообщества. Так уже делают многие open-source AI компании.

Пока Trinity Large Preview бесплатна — используйте ее на полную. Тестируйте, интегрируйте в пет-проекты, сравнивайте с платными альтернативами. Даже если через месяц появится платный тариф, у вас уже будет понимание, стоит ли модель своих денег.

И последнее: не зацикливайтесь на одной модели. Мир open-source LLM меняется каждый месяц. Сегодня лидер Trinity, завтра появится что-то еще. Главное — оставаться гибким и выбирать инструмент под конкретную задачу, а не наоборот.

P.S. Если решите запускать Trinity локально и упираетесь в лимиты памяти, посмотрите нашу статью про оптимизацию памяти для AI моделей. Там есть хитрости, которые помогут выжать из вашего железа максимум.

Arcee Trinity Large Preview: тестируем 400B-параметрическую модель с 13B активных параметров через OpenRouter