华为团队创新MoE架构,提升大语言模型训练效率
华为GTS AI计算Lab的研究团队在MoE架构上取得新进展,提出LocMoE和LocMoE+,旨在解决MoE训练中路由和通信效率的问题。LocMoE+通过低开销主动路由策略,提升了处理关键信息的能力,减少了60%以上的token处理需求,同时提高了训练效率和降低了显存占用。实验结果显示,LocMoE+在知识处理和任务执行上表现出显著的性能提升。来源:https://mp.weixin.qq.com/s/Qte9x8yygmC2aiGEk7AYXg
页:
[1]