Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了
KAIST、Mila 和谷歌 DeepMind 提出新型 LLM 架构 Mixture-of-Recursions(MoR),在不牺牲性能的前提下,推理速度提升 2 倍,KV 缓存内存减少 50%。该架构通过动态路由机制为每个 token 分配计算资源,并采用共享模块与智能缓存策略,显著优化计算效率与内存使用。实验表明,在 135M 至 1.7B 参数范围内,MoR 在相同训练预算下表现优于传统 Transformer,具备良好扩展性与参数效率,未来有望重塑 LLM 架构方向。来源:https://mp.weixin.qq.com/s/Uv-F9lIELcSr9PlTo9a6hQ
页:
[1]