Attention вместо Residual Connections: как Kimi добился прорыва в архитектуре LLM
Kimi K2.5 заменил residual connections на attention mechanism. Улучшение бенчмарков GPQA, MATH, HumanEval при минимальных накладных расходах. Участие Karpathy.
Читать →