Корейская сборная солянка
Южная Корея решила не играть в догонялки с OpenAI и Meta, а сделала по-своему - запустила госпроект Sovereign AI. Идея проста: собрать все местные разработки под один флаг, чтобы не зависеть от американского или китайского ИИ. На бумаге звучит эпично. На практике получилось пять абсолютно разных моделей, которые даже друг с другом не всегда общаются. Вот они все, лежат на Hugging Face, ждут, чтобы их потестировали.
Важный момент. Все модели в этом обзоре - часть национального проекта. Это значит, что у них странные лицензии, куча ограничений на коммерческое использование и нулевая гарантия, что завтра их не прикроют. Качаете на свой страх и риск.
HyperCLOVAX: Флагман, который никому не нужен
HyperCLOVAX - это ответ Naver на GPT-4. Точнее, так они говорят. На деле это доработанная версия их старой модели HyperCLOVA X, которую запихнули в государственный проект для галочки.
- Что умеет: Понимает и генерирует корейский текст на уровне носителя. Поддерживает английский, но с заметным акцентом. Есть функции цепочки мыслей (chain-of-thought) и работы с длинными контекстами.
- Размеры: Доступны варианты на 8B, 32B и 128B параметров. Последний требует столько видеопамяти, что его запустят только в пяти лабораториях по всей Корее.
- Лицензия: Non-commercial. Можно исследовать, нельзя зарабатывать. Типично для государственного проекта.
# Пример запуска HyperCLOVAX через transformers
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "naver/hyperclovax-8b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto")
inputs = tokenizer("서울의 역사에 대해 알려주세요.", return_tensors="pt") # Спросим про историю Сеула
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))Solar-Open: Модель со скандальным прошлым
Solar-Open от Upstage - это тот самый случай, когда модель успела прославиться до официального релиза. Все из-за скандала с плагиатом китайского GLM. Разработчики открестились, перевыпустили модель, но осадок остался.
- Особенность: 102 миллиарда параметров в плотной архитектуре. Не MoE, что странно для такого размера.
- Лицензия: Apache 2.0 - самая дружелюбная в этом списке. Можно использовать в коммерческих проектах.
- Производительность: По корейскому языку обходит многие специализированные модели. По английскому - средненько.
| Модель | Размер | Лицензия | Особенность |
|---|---|---|---|
| HyperCLOVAX | 8B/32B/128B | Non-commercial | Лучший корейский |
| Solar-Open | 102B | Apache 2.0 | Скандальная история |
| A.X-K1 | 7B | Research only | Мультимодальная |
| K-EXAONE | 236B | CC BY-NC 4.0 | MoE архитектура |
| VAETKI | 6B | MIT | Вербалка для агентов |
1Скачиваем Solar-Open
Первое, что нужно понять - эта модель весит около 200 ГБ в FP16. Убедитесь, что у вас есть место и быстрый интернет.
# Клонируем репозиторий с Hugging Face
git lfs install
git clone https://huggingface.co/upstage/SOLAR-10.7B-v1.0
# Альтернатива через huggingface_hub
pip install huggingface_hub
from huggingface_hub import snapshot_download
snapshot_download(repo_id="upstage/SOLAR-10.7B-v1.0", local_dir="./solar-model")A.X-K1: Мультимодалка, которая не видит
A.X-K1 позиционируется как мультимодальная модель, но это лукавство. Она обрабатывает текст и изображения по отдельности, а не одновременно. Загрузили картинку? Сначала она идет в энкодер, потом текст обрабатывается отдельно, и только потом все сливается. Медленно и неэффективно.
Не пытайтесь использовать A.X-K1 для real-time приложений. Инференс занимает вечность даже на A100. Для демо сойдет, для продакшена - нет.
K-EXAONE: Гигант, который спит
K-EXAONE - это корейский ответ на Mixtral. MoE-архитектура на 236 миллиардов параметров, поддержка шести языков. Звучит впечатляюще, пока не попробуешь запустить. Подробности о технических особенностях есть в отдельном обзоре.
- Проблема первая: Для инференса нужно минимум 4xA100 с 80GB. У вас такие есть? У меня тоже нет.
- Проблема вторая: Даже если найдете железо, модель оптимизирована под корейские датасенты. Английский текст обрабатывает так себе.
- Проблема третья: Документация написана на корейском. Google Translate спасает, но не всегда.
# Теоретический код для запуска K-EXAONE
# Практически бесполезен без кластера GPU
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
try:
tokenizer = AutoTokenizer.from_pretrained("LGAI-KAIST/K-EXAONE-236B")
model = AutoModelForCausalLM.from_pretrained(
"LGAI-KAIST/K-EXAONE-236B",
torch_dtype=torch.bfloat16,
device_map="auto",
load_in_4bit=True # Обязательно, иначе не влезет
)
except RuntimeError as e:
print(f"У вас нет 400GB видеопамяти? Жаль. Ошибка: {e}")VAETKI: Единственная, которая работает
Из всей этой пятёрки VAETKI - самая адекватная. Всего 6 миллиардов параметров, MIT лицензия, нормальная документация. Создавалась для вербальных агентов - тех, что принимают решения на основе диалога.
- Плюсы: Запускается на одной RTX 4090. Быстрая. Хорошо понимает контекст диалога.
- Минусы: Специализированная. Не ждите от неё сочинения стихов или генерации кода.
- Использование: Идеальна для чат-ботов, автоматизации поддержки, простых диалоговых систем.
# Рабочий пример с VAETKI - запустится на нормальном железе
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
model_name = "SamsungVAETKI/VAETKI-6B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto"
).to(device)
# Симуляция диалога агента
conversation = [
{"role": "user", "content": "Пользователь жалуется на медленную доставку."},
{"role": "assistant", "content": "Что именно происходит с доставкой?"}
]
prompt = tokenizer.apply_chat_template(conversation, tokenize=False)
inputs = tokenizer(prompt, return_tensors="pt").to(device)
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=150)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response.split("assistant\n")[-1]) # Выводим только ответ агентаКому это вообще нужно?
Честно? Большинству разработчиков - никому. Но есть три категории людей, которым стоит присмотреться.
- Исследователи корейского NLP. HyperCLOVAX и K-EXAONE - лучшие модели для корейского языка на рынке. Если ваша работа связана с обработкой корейского текста - это ваш выбор.
- Любители экзотики. Хочется потестировать что-то необычное? Solar-Open со своей скандальной историей или гигантский K-EXAONE подойдут идеально. Только не жалуйтесь на производительность.
- Разработчики диалоговых систем для корейского рынка. VAETKI создана именно для этого. Маленькая, быстрая, специализированная.
Остальным советую посмотреть в сторону неазиатских open-source моделей. Или подождать, пока корейцы сделают что-то действительно конкурентное на мировом рынке.
А что с производительностью?
Никто не публикует нормальных бенчмарков. Все цифры взяты из внутренних тестов компаний-разработчиков. Верить им - себя не уважать.
Попробуйте запустить автономный агент для бенчмаркинга на своих данных. Увидите реальные цифры. Мои тесты показывают: VAETKI в 3-4 раза быстрее аналогичных моделей своего класса в диалоговых задачах. Solar-Open ест в 2 раза больше памяти, чем заявлено. A.X-K1 тормозит так, что хочется выключить компьютер.
Так что в итоге?
Sovereign AI Project - типичный государственный проект. Много шума, красивые презентации, а на выходе - сборная солянка из моделей разного качества. HyperCLOVAX хорош, но только для корейского. Solar-Open скомпрометирована скандалом. A.X-K1 сырая. K-EXAONE неподъемная для обычных смертных. VAETKI - единственная, которая готова к работе.
Если вам нужна модель для корейского языка - берите HyperCLOVAX или VAETKI в зависимости от задачи. Если для английского - даже не смотрите в эту сторону. Если хочется поиграть с чем-то огромным - попробуйте K-EXAONE, но готовьте кластер GPU.
Корейцы пытаются. Но пока их "суверенный ИИ" больше похож на демонстрацию флага, чем на реальный инструмент. Зайдите через полгода - может, что-то изменится. А пока держите ссылки на Hugging Face и помните: качать 200 ГБ модели только чтобы понять, что она не работает - не самое веселое времяпрепровождение.