面壁智能推出高效端侧大模型CFM技术
面壁智能与清华大学合作开发的CFM技术,通过神经元级稀疏激活大幅提升了大模型的参数效率,特别适合端侧部署。相比主流的MoE方法,CFM具有更细粒度的稀疏性和更强的动态性。尽管非transformer架构如Mamba、RWKV在线性复杂度上有所突破,但在效果上仍难以全面超越transformer。专家指出,模型架构的优劣评价缺乏统一标准,而transformer因可扩展性强成为主流。此外,小模型在端侧应用广泛,超长文本推理和创新能力是未来重要研究方向,而大模型不可能三角问题仍待解决。来源:https://mp.weixin.qq.com/s/kANQBUD5-Y8I9JdLrSd3hg
页:
[1]