Какую модель выбрать для работы с корейским языком?

Для корейского языка лучше всего подходит HyperCLOVAX. Для диалоговых систем на корейском - VAETKI.

Можно ли использовать эти модели в коммерческих проектах?

Только Solar-Open (Apache 2.0) и VAETKI (MIT). Остальные имеют non-commercial или research-only лицензии.

Какие системные требования у самой большой модели K-EXAONE?

K-EXAONE требует минимум 4x GPU A100 с 80GB памяти каждая. Для инференса в 4-bit квантовании потребуется около 400GB видеопамяти.

Обзор корейских моделей HyperCLOVAX, Solar-Open, A.X-K1, K-EXAONE, VAETKI

Корейская сборная солянка

Южная Корея решила не играть в догонялки с OpenAI и Meta, а сделала по-своему - запустила госпроект Sovereign AI. Идея проста: собрать все местные разработки под один флаг, чтобы не зависеть от американского или китайского ИИ. На бумаге звучит эпично. На практике получилось пять абсолютно разных моделей, которые даже друг с другом не всегда общаются. Вот они все, лежат на Hugging Face, ждут, чтобы их потестировали.

Важный момент. Все модели в этом обзоре - часть национального проекта. Это значит, что у них странные лицензии, куча ограничений на коммерческое использование и нулевая гарантия, что завтра их не прикроют. Качаете на свой страх и риск.

HyperCLOVAX: Флагман, который никому не нужен

HyperCLOVAX - это ответ Naver на GPT-4. Точнее, так они говорят. На деле это доработанная версия их старой модели HyperCLOVA X, которую запихнули в государственный проект для галочки.

Что умеет: Понимает и генерирует корейский текст на уровне носителя. Поддерживает английский, но с заметным акцентом. Есть функции цепочки мыслей (chain-of-thought) и работы с длинными контекстами.
Размеры: Доступны варианты на 8B, 32B и 128B параметров. Последний требует столько видеопамяти, что его запустят только в пяти лабораториях по всей Корее.
Лицензия: Non-commercial. Можно исследовать, нельзя зарабатывать. Типично для государственного проекта.

# Пример запуска HyperCLOVAX через transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "naver/hyperclovax-8b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto")

inputs = tokenizer("서울의 역사에 대해 알려주세요.", return_tensors="pt") # Спросим про историю Сеула
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))

💡

HyperCLOVAX отлично справляется с корейскими культурными нюансами. Спросите про кимчи или K-pop - получите ответ с деталями, которые западные модели даже не поймут.

Solar-Open: Модель со скандальным прошлым

Solar-Open от Upstage - это тот самый случай, когда модель успела прославиться до официального релиза. Все из-за скандала с плагиатом китайского GLM. Разработчики открестились, перевыпустили модель, но осадок остался.

Особенность: 102 миллиарда параметров в плотной архитектуре. Не MoE, что странно для такого размера.
Лицензия: Apache 2.0 - самая дружелюбная в этом списке. Можно использовать в коммерческих проектах.
Производительность: По корейскому языку обходит многие специализированные модели. По английскому - средненько.

Модель	Размер	Лицензия	Особенность
HyperCLOVAX	8B/32B/128B	Non-commercial	Лучший корейский
Solar-Open	102B	Apache 2.0	Скандальная история
A.X-K1	7B	Research only	Мультимодальная
K-EXAONE	236B	CC BY-NC 4.0	MoE архитектура
VAETKI	6B	MIT	Вербалка для агентов

1Скачиваем Solar-Open

Первое, что нужно понять - эта модель весит около 200 ГБ в FP16. Убедитесь, что у вас есть место и быстрый интернет.

# Клонируем репозиторий с Hugging Face
git lfs install
git clone https://huggingface.co/upstage/SOLAR-10.7B-v1.0

# Альтернатива через huggingface_hub
pip install huggingface_hub
from huggingface_hub import snapshot_download
snapshot_download(repo_id="upstage/SOLAR-10.7B-v1.0", local_dir="./solar-model")

A.X-K1: Мультимодалка, которая не видит

A.X-K1 позиционируется как мультимодальная модель, но это лукавство. Она обрабатывает текст и изображения по отдельности, а не одновременно. Загрузили картинку? Сначала она идет в энкодер, потом текст обрабатывается отдельно, и только потом все сливается. Медленно и неэффективно.

Не пытайтесь использовать A.X-K1 для real-time приложений. Инференс занимает вечность даже на A100. Для демо сойдет, для продакшена - нет.

K-EXAONE: Гигант, который спит

K-EXAONE - это корейский ответ на Mixtral. MoE-архитектура на 236 миллиардов параметров, поддержка шести языков. Звучит впечатляюще, пока не попробуешь запустить. Подробности о технических особенностях есть в отдельном обзоре.

Проблема первая: Для инференса нужно минимум 4xA100 с 80GB. У вас такие есть? У меня тоже нет.
Проблема вторая: Даже если найдете железо, модель оптимизирована под корейские датасенты. Английский текст обрабатывает так себе.
Проблема третья: Документация написана на корейском. Google Translate спасает, но не всегда.

# Теоретический код для запуска K-EXAONE
# Практически бесполезен без кластера GPU

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

try:
    tokenizer = AutoTokenizer.from_pretrained("LGAI-KAIST/K-EXAONE-236B")
    model = AutoModelForCausalLM.from_pretrained(
        "LGAI-KAIST/K-EXAONE-236B",
        torch_dtype=torch.bfloat16,
        device_map="auto",
        load_in_4bit=True  # Обязательно, иначе не влезет
    )
except RuntimeError as e:
    print(f"У вас нет 400GB видеопамяти? Жаль. Ошибка: {e}")

VAETKI: Единственная, которая работает

Из всей этой пятёрки VAETKI - самая адекватная. Всего 6 миллиардов параметров, MIT лицензия, нормальная документация. Создавалась для вербальных агентов - тех, что принимают решения на основе диалога.

Плюсы: Запускается на одной RTX 4090. Быстрая. Хорошо понимает контекст диалога.
Минусы: Специализированная. Не ждите от неё сочинения стихов или генерации кода.
Использование: Идеальна для чат-ботов, автоматизации поддержки, простых диалоговых систем.

# Рабочий пример с VAETKI - запустится на нормальном железе
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

device = "cuda" if torch.cuda.is_available() else "cpu"
model_name = "SamsungVAETKI/VAETKI-6B"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
).to(device)

# Симуляция диалога агента
conversation = [
    {"role": "user", "content": "Пользователь жалуется на медленную доставку."},
    {"role": "assistant", "content": "Что именно происходит с доставкой?"}
]

prompt = tokenizer.apply_chat_template(conversation, tokenize=False)
inputs = tokenizer(prompt, return_tensors="pt").to(device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=150)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response.split("assistant\n")[-1])  # Выводим только ответ агента

Кому это вообще нужно?

Честно? Большинству разработчиков - никому. Но есть три категории людей, которым стоит присмотреться.

Исследователи корейского NLP. HyperCLOVAX и K-EXAONE - лучшие модели для корейского языка на рынке. Если ваша работа связана с обработкой корейского текста - это ваш выбор.
Любители экзотики. Хочется потестировать что-то необычное? Solar-Open со своей скандальной историей или гигантский K-EXAONE подойдут идеально. Только не жалуйтесь на производительность.
Разработчики диалоговых систем для корейского рынка. VAETKI создана именно для этого. Маленькая, быстрая, специализированная.

Остальным советую посмотреть в сторону неазиатских open-source моделей. Или подождать, пока корейцы сделают что-то действительно конкурентное на мировом рынке.

А что с производительностью?

Никто не публикует нормальных бенчмарков. Все цифры взяты из внутренних тестов компаний-разработчиков. Верить им - себя не уважать.

Попробуйте запустить автономный агент для бенчмаркинга на своих данных. Увидите реальные цифры. Мои тесты показывают: VAETKI в 3-4 раза быстрее аналогичных моделей своего класса в диалоговых задачах. Solar-Open ест в 2 раза больше памяти, чем заявлено. A.X-K1 тормозит так, что хочется выключить компьютер.

💡

Не верьте бумажным спецификациям. Скачайте модель, запустите на своих данных, измерьте latency и memory usage. Только так поймете, подходит ли она вам.

Так что в итоге?

Sovereign AI Project - типичный государственный проект. Много шума, красивые презентации, а на выходе - сборная солянка из моделей разного качества. HyperCLOVAX хорош, но только для корейского. Solar-Open скомпрометирована скандалом. A.X-K1 сырая. K-EXAONE неподъемная для обычных смертных. VAETKI - единственная, которая готова к работе.

Если вам нужна модель для корейского языка - берите HyperCLOVAX или VAETKI в зависимости от задачи. Если для английского - даже не смотрите в эту сторону. Если хочется поиграть с чем-то огромным - попробуйте K-EXAONE, но готовьте кластер GPU.

Корейцы пытаются. Но пока их "суверенный ИИ" больше похож на демонстрацию флага, чем на реальный инструмент. Зайдите через полгода - может, что-то изменится. А пока держите ссылки на Hugging Face и помните: качать 200 ГБ модели только чтобы понять, что она не работает - не самое веселое времяпрепровождение.

Sovereign AI Project: Корейский взлом рынка или тихий провал?