MoA:混合稀疏注意力提升大模型长文本处理能力
清华大学等研究团队提出 MoA 方法,通过混合不同稀疏度的注意力头,有效解决了大语言模型在处理长文本时的计算成本和内存挑战。MoA 在 25% 的注意力稠密度下即可记忆几乎 100% 的上下文,显著提升了长文本信息检索和理解的准确率,同时提高了生成吞吐量,减少了内存占用。实验结果显示,MoA 在多个模型和基准测试中表现优异,优于现有方法。来源:https://mp.weixin.qq.com/s/rjGAJfusY_CHSx3Q0SHVmg
页:
[1]