MiniMax-M2.5: 230 миллиардов параметров, но только 10 активных. Как это работает и когда ждать на HuggingFace?
Технический разбор MiniMax-M2.5: как работает модель с 230 миллиардами параметров и всего 10B активных. Когда ждать на HuggingFace и чем она лучше M2.1.
Читать →