阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节

[复制链接]
周大 发表于 2025-1-24 14:17:46 | 显示全部楼层 |阅读模式
阿里云通义千问团队针对混合专家模型(MoE)训练中的专家激活不均衡问题,提出了一种将局部负载均衡损失转化为全局均衡的新方法。现有框架中实现的负载均衡损失(LBL)为局部均衡,导致专家特异化受限。通过轻量通信同步专家选择频率并在所有micro-batch间聚合损失,研究人员实现了从局部到全局的均衡转换。实验结果表明,扩大均衡范围后模型在Benchmark指标和PPL上均有显著提升,且添加少量局部均衡损失可提高模型效率。这一进展解决了现有MoE训练中的关键问题,为构建更有效的模型提供了新视角。
来源:https://mp.weixin.qq.com/s/WHWtNrIErYuC3GzyIFEgTw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 11:42 , Processed in 0.308165 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表