华为诺亚提出端侧大模型新架构MoLE，内存搬运代价降低1000倍

周大发表于 2025-5-7 14:37:43

北大与华为提出 MoLE，一种针对端侧优化的新型 MoE 架构。通过将专家输入改为 embedding token 并采用查找表替代矩阵运算，MoLE 解决了传统 MoE 显存占用大和延迟高的问题。实验表明，MoLE 在相同参数量下性能与 MoE 相当，传输开销减少千倍，且在批量解码场景中表现出更低延迟和更高稳定性，为端侧部署提供了新思路。
来源：https://mp.weixin.qq.com/s/J_uhy5kwwdGfjJHXdzEhsQ

		自动登录	找回密码
密码			立即注册

课程导航

华为诺亚提出端侧大模型新架构MoLE，内存搬运代价降低1000倍