MoE++:更高效的新一代混合专家架构
北京大学与昆仑万维2050研究院联合提出的MoE++架构,通过引入“零计算量专家”设计,允许每个Token使用可变数量的FFN专家,甚至完全跳过MoE层。这一设计显著降低了计算成本,提升了模型性能。实验结果显示,MoE++在0.6B到7B参数规模的LLMs上,性能优于传统MoE,专家吞吐速度提高1.1到2.1倍。目前,该模型权重已开源。来源:https://mp.weixin.qq.com/s/WdLuK0Hk6S6EfnACACKXsA
页:
[1]