Lory模型:全新可微MoE技术提升语言模型预训练效率

[复制链接]
周大 发表于 2024-5-21 15:58:26 | 显示全部楼层 |阅读模式
普林斯顿大学与Meta的研究团队近日推出Lory模型,这是一种创新的自回归语言模型,利用完全可微的MoE架构提升效率。Lory通过因果分段路由策略和基于相似性的数据批处理方法,解决了传统MoE的路由学习难题,并在多项任务中展现出优秀性能。这一研究可能影响未来超大规模模型的设计。
来源:https://mp.weixin.qq.com/s/UKIXGJTFzSeSZvoTe_c9CQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-20 01:24 , Processed in 0.276367 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表