注意力机制中的极大值:破解大语言模型上下文理解的关键
一项来自 ICML 2025 的研究表明,大型语言模型中的自注意力模块存在极大值现象,这些极大值主要集中在查询 (Q) 和键 (K) 表示中,并对上下文知识理解起到关键作用。研究发现,这一现象仅存在于使用旋转位置编码 (RoPE) 的模型中,且极大值破坏会导致上下文任务性能显著下降,而对参数知识影响有限。此外,特定量化技术(如 AWQ 和 SmoothQuant)能有效保护上下文理解能力。该研究为未来 LLM 的设计、优化和量化提供了新方向。来源:https://mp.weixin.qq.com/s/HagJ7UWDi3vsH9LeIVXtmA
页:
[1]