Сколько времени занимает дообучение Supra-Router-51M?

На GPU с 16 ГБ VRAM (например, RTX 4070) дообучение занимает 5-10 минут на датасете из 10-20 тысяч примеров.

Можно ли использовать Supra-Router-51M с коммерческими API?

Да, роутер возвращает только индекс модели, а вызов API организуется отдельно. Модель не зависит от провайдера.

Supra-Router-51M: компактная модель маршрутизации промптов (51M)

Навигатор в мире LLM: зачем 51 миллион параметров, когда вокруг гиганты?

Мы привыкли, что чем больше модель, тем лучше. GPT-5, Gemini 2 Ultra, Llama 4 — сотни миллиардов параметров, космические вычислительные мощности. Но что, если я скажу, что для критически важной задачи — выбора, к какой LLM отправить запрос — достаточно модели размером с флешку? Встречайте Supra-Router-51M.

Идея проста: не гонять тяжёлую языковую модель на каждый чих. Рисунок котика? Пусть отвечает быстрая дешёвая модель. Анализ контракта? Тут уже нужен монстр. Проблема в том, что разработчики либо используют один «универсальный» API (и платят за избыточность), либо вручную зашивают правила — хрупкие и негибкие. Supra-Router-51M предлагает третий путь: маленький оркестратор, который сам решает, кому передать промпт.

Ключевое отличие от аналогов: это не прокси-сервер и не набор правил, а полноценная нейросеть с 51 млн параметров, которую можно дообучить под свой набор моделей. Весит ~100 МБ — помещается на Raspberry Pi.

Как это работает (без лишней магии)

Supra-Router-51M берёт ваш промпт, превращает его в эмбеддинг (через DistilBERT-подобный encoder) и прогоняет через головку классификации. На выходе — индекс модели из заранее заданного списка. Типичный пайплайн:

Вы определяете пул LLM (например: GPT-5 для творчества, Claude Opus 4 для аналитики, Llama 4-70B для кода).
Собираете датасет промптов с разметкой — какая модель лучше справилась с каждым запросом.
Дообучаете роутер на своих данных (5–10 минут на GPU).
Разворачиваете инференс — роутер срабатывает за <10 мс на CPU.

Звучит логично, но есть нюанс: точность роутинга напрямую зависит от качества датасета. Если вы помечаете «сложный юридический вопрос -> GPT-5», а на деле дешёвая модель справляется не хуже — роутер будет переплачивать. Но об этом позже.

Код: 5 строк на Python

Подключение через transformers (Hugging Face) — стандартное. Допустим, у нас уже есть дообученная модель my-company/supra-router:

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model_name = "my-company/supra-router"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

prompt = "Объясни квантовую запутанность пятилетнему ребёнку"
inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
outputs = model(**inputs)
model_id = outputs.logits.argmax().item()  # 0 - cheap, 1 - expensive

# маппинг
mapping = {0: "llama-4-8b", 1: "gpt-5"}
print(f"Отправляем к {mapping[model_id]}")

Интеграция с любым бэкендом — дело техники. Можно цеплять к AI Gateway или встраивать в Router Mode llama.cpp (если модели локальные).

Supra-Router vs остальные: таблица

На рынке уже есть инструменты маршрутизации. Чем выделяется наш кандидат?

Инструмент	Тип	Размер/Требования	Гибкость	Нужно обучение?
Supra-Router-51M	ML-модель	51M, CPU inference	высокая	да
LLMRouter	Правила + ML	—	средняя	частично
Basis Router	Прокси + БД	—	низкая	нет
Router Mode (llama.cpp)	Встроенный	—	средняя	нет
OpenRouter / AI Gateway	Прокси	—	средняя	нет

Главный козырь Supra-Router — дообучение под вашу предметную область. LLMRouter использует линейные модели или эвристики, но не «понимает» семантику так глубоко. Basis Router привязан к базам данных и не рассчитан на абстрактное ранжирование LLM. Router Mode в llama.cpp работает только с локальными моделями и не учитывает облачные API. А OpenRouter и AI Gateway — это просто прокси, они не оптимизируют выбор модели под задачу (хотя AI Gateway может делать fallback по стоимости).

💡

Если вы уже используете OpenRouter для тестирования моделей, Supra-Router можно поставить перед ним — роутер будет решать, на какую модель OpenRouter перенаправить запрос.

Типичный кейс: мульти-агентная система

Представьте: у вас есть агент для генерации текста, агент для анализа данных, агент для кода. Каждый может работать на своей LLM, но клиентский запрос нужно направить правильному агенту. Вместо жёсткой схемы (если contains("код") -> Code Agent) вы ставите Supra-Router. Он смотрит на промпт, видит просьбу «напиши скрипт для парсинга CSV» и отправляет к модели, специализированной на Python (например, Code Llama 4 или GPT-5 with Code Interpreter). Экономия — до 40% по сравнению с использованием универсальной топ-модели на все задачи.

Для максимальной эффективности советую ограничить пул до 3–5 моделей. Если моделей больше, точность роутера падает — он путается. Лучше сделать двухуровневую архитектуру: первый роутер (Supra-Router) определяет «категорию» задачи, второй (кастомный) выбирает конкретную LLM внутри категории. Это напоминает Парето-фронт LLM — ищем баланс между качеством и стоимостью.

Болевые точки и подводные камни

Данные. Без репрезентативного датасета роутер будет ошибаться. Собирайте логи реальных запросов, делайте краудсорсинг разметки или используйте синтетические пары (промпт + метрика качества ответа каждой модели).
Дрейф моделей. LLM обновляются. Сегодня GPT-5 справляется с переводами лучше, завтра — уже Llama 4. Роутер нужно переобучать раз в месяц или сделать онлайн-дообучение.
Длина контекста. Supra-Router не анализирует историю диалога — только текущий промпт. Для чат-ботов с контекстом лучше добавить суммаризацию истории внешним агентом.

Не пытайтесь засунуть в роутер все возможные модели. Ограничьтесь 3-5 — так точнее. Лучше сделать иерархию роутеров, чем один на 20 классов.

С точки зрения инфраструктуры, модель легко деплоится на Triton Inference Server или через ONNX Runtime. Если у вас уже поднят корпоративный шины (redb.Route.Llm), Supra-Router может стать её логическим дополнением — как компактный «мозг» для принятия решений.

Кому стоит попробовать прямо сейчас

Разработчикам мульти-агентных систем, где каждый агент использует свою LLM.
Стартапам, которые хотят сэкономить на API без потери качества.
Командам, которым нужно быстро прототипировать роутинг — дообучение занимает час, а не недели.
Всем, кто устал писать if-else на сотни строк для выбора модели.

Supra-Router-51M доступен на Hugging Face под лицензией Apache 2.0. Базовая версия предобучена на датасете из 500 тыс. промптов (смесь из ShareGPT, OpenAssistant и синтетики). Если ваши задачи нестандартные — берите датасет, дообучайте и делитесь результатами. И да, это реально работает на CPU. Проверено.

Подписаться на канал

Supra-Router-51M: компактная модель для маршрутизации промптов между LLM