MoE++:更高效的新一代混合专家架构

[复制链接]
周大 发表于 2024-10-21 14:42:40 | 显示全部楼层 |阅读模式
北京大学与昆仑万维2050研究院联合提出的MoE++架构,通过引入“零计算量专家”设计,允许每个Token使用可变数量的FFN专家,甚至完全跳过MoE层。这一设计显著降低了计算成本,提升了模型性能。实验结果显示,MoE++在0.6B到7B参数规模的LLMs上,性能优于传统MoE,专家吞吐速度提高1.1到2.1倍。目前,该模型权重已开源。
来源:https://mp.weixin.qq.com/s/WdLuK0Hk6S6EfnACACKXsA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 20:06 , Processed in 0.294593 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表