15 июня 2026 года. Бразильская AI-сцена взорвалась новостью: команда PortoAI выпустила модель Rio-70B, позиционируя её как «первую суверенную LLM Южной Америки». Гордость, патриотизм, обещания прорыва в португальском и испанском языках. Спустя 48 часов сообщество обнаружило: под капотаном Rio скрывается… Qwen 3.5. Не дистилляция, не дообучение — тупая переименовка с минимальными косметическими правками. И да, это первый такой случай в Бразилии. Но не первый в мире.
⚠️ Суть скандала: Rio-70B — это Qwen 3.5-72B с изменёнными названиями тензоров и удалёнными водяными знаками. Команда PortoAI выдала чужую работу за свою, нарушив Apache 2.0 и доверие сообщества.
Как это вскрылось? Всё началось с банального сравнения хешей. Один из разработчиков на форуме Hugging Face заметил, что logits модели Rio подозрительно совпадают с Qwen 3.5-72B на наборе тестовых промптов. Затем — сравнительный анализ архитектуры: количество слоёв, размерность hidden states, конфигурация attention — всё идентично, вплоть до значений по умолчанию в слоях LayerNorm. Разница только в названиях: transformer.h.0 превратилось в rio.block.0, а lm_head — в output_projection. Это не дистилляция — это find-and-replace.
💡 Техническая справка: при истинной дистилляции (knowledge distillation) модель-ученик обучается на выходах модели-учителя, но имеет другую архитектуру, меньший размер, и, главное, собственные веса. В случае Rio веса скопированы полностью, а затем переименованы — это прямой плагиат.
Зловещие совпадения
Но история не была бы такой громкой, если бы не контекст. За последние полгода AI-сообщество буквально захлестнула волна «переупаковок» open-source моделей. Южнокорейский Solar-100B оказался китайским GLM — то же самое: ребрендинг, удаление логотипов, попытка выдать за национальную разработку. IQuest-Coder-V1 — фальшивка, построенная на публичных чекпоинтах CodeLlama. ByteDance обвиняли в нарушении лицензий Stable Diffusion. Даже xAI с Grok не устояли — «spicy mode» привёл к расследованиям. На этом фоне Rio выглядит не как единичный инцидент, а как симптом системной болезни.
Почему именно Qwen? Потому что модели Alibaba Cloud — одни из самых производительных в сегменте open-source. Qwen 3.5, выпущенная в начале 2026 года, по бенчмаркам обходит Llama 4 и Mistral 7B. И при этом их лицензия (Apache 2.0) позволяет коммерческое использование, но с обязательным указанием авторства. Именно этот пункт и нарушила PortoAI — ни в одном официальном документе не упоминается, что модель основана на Qwen. Напротив, в пресс-релизе заявлялась «полностью оригинальная архитектура с нуля».
Как это повлияет на экосистему?
Первая реакция — гнев и разочарование. Hugging Face уже удалил репозиторий Rio-70B, а команда PortoAI выпустила извинения, но объяснила ситуацию «недоразумением в процессе публикации». Мол, модель действительно основана на Qwen, но они планировали дообучить её на бразильских данных — просто не успели к дедлайну. Звучит неубедительно, особенно учитывая, что дообучение (fine-tuning) не требует полного копирования архитектуры с переименованием — достаточно взять контрольную точку и натренировать LoRA поверх.
Но второй, более тревожный аспект — доверие к open-source ИИ. Если раньше мы полагались на репутацию лабораторий и университетов, то теперь любой стартап может загрузить переименованную модель и собрать хайп. Это подрывает саму идею прозрачности. Недавний Solar-100B показал, что даже национальные проекты не застрахованы, а Rio доказала: хайп может случиться где угодно, хоть в Бразилии.
| Модель | Заявленное происхождение | Реальное происхождение | Год |
|---|---|---|---|
| Rio-70B | Суверенная бразильская LLM | Qwen 3.5-72B | 2026 |
| Solar-100B | Южнокорейская разработка | GLM-130B | 2025 |
| IQuest-Coder-V1 | Оригинальный кодер | CodeLlama | 2025 |
Что делать?
Сообщество уже начало реагировать. Появились скрипты для автоматической проверки «генеалогии» моделей — сравнение эмбеддингов, анализ метаданных safetensors, поиск водяных знаков. Например, в случае с Qwen3-Coder-Next проблема была в баге фильтрации, но сам подход с проверкой целостности чекпоинтов становится стандартом. Hugging Face уже анонсировал обязательную верификацию для «суверенных» моделей.
Но главный урок — слепая вера в бренды опасна. Даже если модель загружена университетом или национальным институтом, это не гарантирует оригинальности. Прозрачность должна быть технологичной: публичные логи обучения, повторяемые пайплайны, открытые репозитории с коммитами до даты релиза — без этого любая «суверенная LLM» рискует оказаться дельфином в обёртке сельди.
А пока — проверяйте чекпоинты, сравнивайте не только бенчмарки, но и имена тензоров. И если увидите модель с гордым названием в честь местной географической точки — загляните под капот. Возможно, там вас ждёт знакомый китайский дракон.