华为团队创新MoE架构,提升大语言模型训练效率

[复制链接]
周大 发表于 2024-7-19 15:14:08 | 显示全部楼层 |阅读模式
华为GTS AI计算Lab的研究团队在MoE架构上取得新进展,提出LocMoE和LocMoE+,旨在解决MoE训练中路由和通信效率的问题。LocMoE+通过低开销主动路由策略,提升了处理关键信息的能力,减少了60%以上的token处理需求,同时提高了训练效率和降低了显存占用。实验结果显示,LocMoE+在知识处理和任务执行上表现出显著的性能提升。
来源:https://mp.weixin.qq.com/s/Qte9x8yygmC2aiGEk7AYXg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 02:12 , Processed in 0.299889 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表