周大 发表于 2024-10-21 14:42:40

MoE++:更高效的新一代混合专家架构

北京大学与昆仑万维2050研究院联合提出的MoE++架构,通过引入“零计算量专家”设计,允许每个Token使用可变数量的FFN专家,甚至完全跳过MoE层。这一设计显著降低了计算成本,提升了模型性能。实验结果显示,MoE++在0.6B到7B参数规模的LLMs上,性能优于传统MoE,专家吞吐速度提高1.1到2.1倍。目前,该模型权重已开源。
来源:https://mp.weixin.qq.com/s/WdLuK0Hk6S6EfnACACKXsA
页: [1]
查看完整版本: MoE++:更高效的新一代混合专家架构