Почему ваш RAG все еще тормозит на русском?
Стандартные сплиттеры вроде RecursiveCharacterTextSplitter из LangChain — это зло. Они режут русский текст по фиксированному числу символов, игнорируя точки, абзацы и заголовки. В результате RAG получает обрубки фраз, LLM галлюцинирует. Я уже подробно разбирал эту проблему в статье про lossless-нарезку и T-lite-it-2.1.
Теперь идем дальше. Мы научимся дообучать LoRA на RTX 5090, конвертировать модель в GGUF и запускать на дешевом AMD (например, Strix Halo). Зачем? Чтобы lossless-нарезка работала на любом железе, а не только на NVIDIA с 24 ГБ VRAM.