华为团队创新MoE架构，提升大语言模型训练效率

周大发表于 2024-7-19 15:14:08

华为GTS AI计算Lab的研究团队在MoE架构上取得新进展，提出LocMoE和LocMoE+，旨在解决MoE训练中路由和通信效率的问题。LocMoE+通过低开销主动路由策略，提升了处理关键信息的能力，减少了60%以上的token处理需求，同时提高了训练效率和降低了显存占用。实验结果显示，LocMoE+在知识处理和任务执行上表现出显著的性能提升。
来源：https://mp.weixin.qq.com/s/Qte9x8yygmC2aiGEk7AYXg

		自动登录	找回密码
密码			立即注册

课程导航

华为团队创新MoE架构，提升大语言模型训练效率