注意力机制中的极大值：破解大语言模型上下文理解的关键

周大发表于 2025-5-6 14:55:37

一项来自 ICML 2025 的研究表明，大型语言模型中的自注意力模块存在极大值现象，这些极大值主要集中在查询 (Q) 和键 (K) 表示中，并对上下文知识理解起到关键作用。研究发现，这一现象仅存在于使用旋转位置编码 (RoPE) 的模型中，且极大值破坏会导致上下文任务性能显著下降，而对参数知识影响有限。此外，特定量化技术（如 AWQ 和 SmoothQuant）能有效保护上下文理解能力。该研究为未来 LLM 的设计、优化和量化提供了新方向。
来源：https://mp.weixin.qq.com/s/HagJ7UWDi3vsH9LeIVXtmA

页: [1]

靠浦ai课堂's Archiver

注意力机制中的极大值：破解大语言模型上下文理解的关键