华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍

[复制链接]
周大 发表于 前天 14:37 | 显示全部楼层 |阅读模式
北大与华为提出 MoLE,一种针对端侧优化的新型 MoE 架构。通过将专家输入改为 embedding token 并采用查找表替代矩阵运算,MoLE 解决了传统 MoE 显存占用大和延迟高的问题。实验表明,MoLE 在相同参数量下性能与 MoE 相当,传输开销减少千倍,且在批量解码场景中表现出更低延迟和更高稳定性,为端侧部署提供了新思路。
来源:https://mp.weixin.qq.com/s/J_uhy5kwwdGfjJHXdzEhsQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 07:44 , Processed in 0.281184 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表