注意力机制中的极大值:破解大语言模型上下文理解的关键

[复制链接]
周大 发表于 2025-5-6 14:55:37 | 显示全部楼层 |阅读模式
一项来自 ICML 2025 的研究表明,大型语言模型中的自注意力模块存在极大值现象,这些极大值主要集中在查询 (Q) 和键 (K) 表示中,并对上下文知识理解起到关键作用。研究发现,这一现象仅存在于使用旋转位置编码 (RoPE) 的模型中,且极大值破坏会导致上下文任务性能显著下降,而对参数知识影响有限。此外,特定量化技术(如 AWQ 和 SmoothQuant)能有效保护上下文理解能力。该研究为未来 LLM 的设计、优化和量化提供了新方向。
来源:https://mp.weixin.qq.com/s/HagJ7UWDi3vsH9LeIVXtmA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-21 03:07 , Processed in 0.296568 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表