面壁智能推出高效端侧大模型CFM技术

[复制链接]
周大 发表于 2025-4-12 14:52:24 | 显示全部楼层 |阅读模式
面壁智能与清华大学合作开发的CFM技术,通过神经元级稀疏激活大幅提升了大模型的参数效率,特别适合端侧部署。相比主流的MoE方法,CFM具有更细粒度的稀疏性和更强的动态性。尽管非transformer架构如Mamba、RWKV在线性复杂度上有所突破,但在效果上仍难以全面超越transformer。专家指出,模型架构的优劣评价缺乏统一标准,而transformer因可扩展性强成为主流。此外,小模型在端侧应用广泛,超长文本推理和创新能力是未来重要研究方向,而大模型不可能三角问题仍待解决。
来源:https://mp.weixin.qq.com/s/kANQBUD5-Y8I9JdLrSd3hg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 13:14 , Processed in 0.281682 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表