周大 发表于 2025-9-14 14:36:16

加州等大学研究人员发现:大语言模型解心算题时,关键计算集中在最后一个token

来自加州大学圣克鲁兹分校等机构的研究人员发现,大语言模型在执行心算任务时,几乎所有计算都集中在最后一个token完成。通过CAMA和ABP技术对Llama-3-8B等模型进行实验,研究人员识别出一种高效计算机制“人人为我”(AF1):前几层token执行通用任务,中间层传递信息,最终由最后一个token完成运算。实验表明,Llama-3-8B在移除近60个注意力头后仍能保持约95%的准确率,显示出计算的稀疏性。AF1在直接算术任务中表现良好,但在需语义理解的任务中表现较差。Pythia和GPT-J中也发现类似机制,但性能不如Llama。该研究为理解模型内部机制和提升可解释性提供了新方法。
来源:https://mp.weixin.qq.com/s/yYnJXKm61bTeUgnN1HiSng
页: [1]
查看完整版本: 加州等大学研究人员发现:大语言模型解心算题时,关键计算集中在最后一个token