加州等大学研究人员发现：大语言模型解心算题时，关键计算集中在最后一个token

周大发表于 2025-9-14 14:36:16

来自加州大学圣克鲁兹分校等机构的研究人员发现，大语言模型在执行心算任务时，几乎所有计算都集中在最后一个token完成。通过CAMA和ABP技术对Llama-3-8B等模型进行实验，研究人员识别出一种高效计算机制“人人为我”（AF1）：前几层token执行通用任务，中间层传递信息，最终由最后一个token完成运算。实验表明，Llama-3-8B在移除近60个注意力头后仍能保持约95%的准确率，显示出计算的稀疏性。AF1在直接算术任务中表现良好，但在需语义理解的任务中表现较差。Pythia和GPT-J中也发现类似机制，但性能不如Llama。该研究为理解模型内部机制和提升可解释性提供了新方法。
来源：https://mp.weixin.qq.com/s/yYnJXKm61bTeUgnN1HiSng

		自动登录	找回密码
密码			立即注册

课程导航

加州等大学研究人员发现：大语言模型解心算题时，关键计算集中在最后一个token