MoE++：更高效的新一代混合专家架构

周大发表于 2024-10-21 14:42:40

北京大学与昆仑万维2050研究院联合提出的MoE++架构，通过引入“零计算量专家”设计，允许每个Token使用可变数量的FFN专家，甚至完全跳过MoE层。这一设计显著降低了计算成本，提升了模型性能。实验结果显示，MoE++在0.6B到7B参数规模的LLMs上，性能优于传统MoE，专家吞吐速度提高1.1到2.1倍。目前，该模型权重已开源。
来源：https://mp.weixin.qq.com/s/WdLuK0Hk6S6EfnACACKXsA

页: [1]

靠浦ai课堂's Archiver

MoE++：更高效的新一代混合专家架构