Скандал с моделью Rio: обвинения в подмене дистилляции Qwen | AiManual
AiManual Logo Ai / Manual.
15 Июн 2026 Новости

Код самбы или плагиат? Как бразильская Rio оказалась китайской Qwen и подорвала доверие к open-source

Бразильская AI-модель Rio оказалась ребрендингом Qwen 3.5. Технический детектив, реакция сообщества и уроки для open-source экосистемы.

Реклама
cliv1

15 июня 2026 года. Бразильская AI-сцена взорвалась новостью: команда PortoAI выпустила модель Rio-70B, позиционируя её как «первую суверенную LLM Южной Америки». Гордость, патриотизм, обещания прорыва в португальском и испанском языках. Спустя 48 часов сообщество обнаружило: под капотаном Rio скрывается… Qwen 3.5. Не дистилляция, не дообучение — тупая переименовка с минимальными косметическими правками. И да, это первый такой случай в Бразилии. Но не первый в мире.

⚠️ Суть скандала: Rio-70B — это Qwen 3.5-72B с изменёнными названиями тензоров и удалёнными водяными знаками. Команда PortoAI выдала чужую работу за свою, нарушив Apache 2.0 и доверие сообщества.

Как это вскрылось? Всё началось с банального сравнения хешей. Один из разработчиков на форуме Hugging Face заметил, что logits модели Rio подозрительно совпадают с Qwen 3.5-72B на наборе тестовых промптов. Затем — сравнительный анализ архитектуры: количество слоёв, размерность hidden states, конфигурация attention — всё идентично, вплоть до значений по умолчанию в слоях LayerNorm. Разница только в названиях: transformer.h.0 превратилось в rio.block.0, а lm_head — в output_projection. Это не дистилляция — это find-and-replace.

💡 Техническая справка: при истинной дистилляции (knowledge distillation) модель-ученик обучается на выходах модели-учителя, но имеет другую архитектуру, меньший размер, и, главное, собственные веса. В случае Rio веса скопированы полностью, а затем переименованы — это прямой плагиат.

Зловещие совпадения

Но история не была бы такой громкой, если бы не контекст. За последние полгода AI-сообщество буквально захлестнула волна «переупаковок» open-source моделей. Южнокорейский Solar-100B оказался китайским GLM — то же самое: ребрендинг, удаление логотипов, попытка выдать за национальную разработку. IQuest-Coder-V1 — фальшивка, построенная на публичных чекпоинтах CodeLlama. ByteDance обвиняли в нарушении лицензий Stable Diffusion. Даже xAI с Grok не устояли — «spicy mode» привёл к расследованиям. На этом фоне Rio выглядит не как единичный инцидент, а как симптом системной болезни.

Почему именно Qwen? Потому что модели Alibaba Cloud — одни из самых производительных в сегменте open-source. Qwen 3.5, выпущенная в начале 2026 года, по бенчмаркам обходит Llama 4 и Mistral 7B. И при этом их лицензия (Apache 2.0) позволяет коммерческое использование, но с обязательным указанием авторства. Именно этот пункт и нарушила PortoAI — ни в одном официальном документе не упоминается, что модель основана на Qwen. Напротив, в пресс-релизе заявлялась «полностью оригинальная архитектура с нуля».

Как это повлияет на экосистему?

Первая реакция — гнев и разочарование. Hugging Face уже удалил репозиторий Rio-70B, а команда PortoAI выпустила извинения, но объяснила ситуацию «недоразумением в процессе публикации». Мол, модель действительно основана на Qwen, но они планировали дообучить её на бразильских данных — просто не успели к дедлайну. Звучит неубедительно, особенно учитывая, что дообучение (fine-tuning) не требует полного копирования архитектуры с переименованием — достаточно взять контрольную точку и натренировать LoRA поверх.

Но второй, более тревожный аспект — доверие к open-source ИИ. Если раньше мы полагались на репутацию лабораторий и университетов, то теперь любой стартап может загрузить переименованную модель и собрать хайп. Это подрывает саму идею прозрачности. Недавний Solar-100B показал, что даже национальные проекты не застрахованы, а Rio доказала: хайп может случиться где угодно, хоть в Бразилии.

Модель Заявленное происхождение Реальное происхождение Год
Rio-70B Суверенная бразильская LLM Qwen 3.5-72B 2026
Solar-100B Южнокорейская разработка GLM-130B 2025
IQuest-Coder-V1 Оригинальный кодер CodeLlama 2025

Что делать?

Сообщество уже начало реагировать. Появились скрипты для автоматической проверки «генеалогии» моделей — сравнение эмбеддингов, анализ метаданных safetensors, поиск водяных знаков. Например, в случае с Qwen3-Coder-Next проблема была в баге фильтрации, но сам подход с проверкой целостности чекпоинтов становится стандартом. Hugging Face уже анонсировал обязательную верификацию для «суверенных» моделей.

Но главный урок — слепая вера в бренды опасна. Даже если модель загружена университетом или национальным институтом, это не гарантирует оригинальности. Прозрачность должна быть технологичной: публичные логи обучения, повторяемые пайплайны, открытые репозитории с коммитами до даты релиза — без этого любая «суверенная LLM» рискует оказаться дельфином в обёртке сельди.

🔮
Прогноз: уже к осени 2026 года появятся обязательные «certificate of authenticity» для open-source моделей — цифровые подписи, связывающие веса с логами обучения. Те, кто не сможет их предоставить, столкнутся с автоматическим блокированием на платформах вроде Hugging Face. Rio станет тем триггером, который заставит внедрить правила игры там, где раньше царил анархичный энтузиазм.

А пока — проверяйте чекпоинты, сравнивайте не только бенчмарки, но и имена тензоров. И если увидите модель с гордым названием в честь местной географической точки — загляните под капот. Возможно, там вас ждёт знакомый китайский дракон.

Подписаться на канал