Lory模型：全新可微MoE技术提升语言模型预训练效率

周大发表于 2024-5-21 15:58:26

普林斯顿大学与Meta的研究团队近日推出Lory模型，这是一种创新的自回归语言模型，利用完全可微的MoE架构提升效率。Lory通过因果分段路由策略和基于相似性的数据批处理方法，解决了传统MoE的路由学习难题，并在多项任务中展现出优秀性能。这一研究可能影响未来超大规模模型的设计。
来源：https://mp.weixin.qq.com/s/UKIXGJTFzSeSZvoTe_c9CQ

页: [1]

靠浦ai课堂's Archiver

Lory模型：全新可微MoE技术提升语言模型预训练效率