加州等大学研究人员发现:大语言模型解心算题时,关键计算集中在最后一个token

[复制链接]
周大 发表于 前天 14:36 | 显示全部楼层 |阅读模式
来自加州大学圣克鲁兹分校等机构的研究人员发现,大语言模型在执行心算任务时,几乎所有计算都集中在最后一个token完成。通过CAMA和ABP技术对Llama-3-8B等模型进行实验,研究人员识别出一种高效计算机制“人人为我”(AF1):前几层token执行通用任务,中间层传递信息,最终由最后一个token完成运算。实验表明,Llama-3-8B在移除近60个注意力头后仍能保持约95%的准确率,显示出计算的稀疏性。AF1在直接算术任务中表现良好,但在需语义理解的任务中表现较差。Pythia和GPT-J中也发现类似机制,但性能不如Llama。该研究为理解模型内部机制和提升可解释性提供了新方法。
来源:https://mp.weixin.qq.com/s/yYnJXKm61bTeUgnN1HiSng

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-16 08:48 , Processed in 0.305762 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表