大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

[复制链接]
周大 发表于 2025-2-6 17:55:46 | 显示全部楼层 |阅读模式
北京邮电大学与彩云科技合作研究大型语言模型(LLM)的组合关系推理能力,开发了广义关联回忆(GAR)基准测试。GAR整合多个经典任务,系统考察模型推理能力,揭示现有模型存在组合性差距。通过对主流开源和闭源模型测试,发现模型规模增大并不能完全解决组合推理问题。研究采用归因补丁方法,发现关键注意力头在组合推理中起重要作用,干预这些头可提升LLM表现,为优化模型提供了新思路。该研究加深了对LLM工作原理的理解,并为模型改进提供了启发。
来源:https://mp.weixin.qq.com/s/nDfE3RrkxidrI2ULczKZZw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 03:27 , Processed in 0.276411 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表