周大 发表于 2024-11-19 14:35:09

“超权重”对大模型表现至关重要,苹果提出新量化方法

圣母大学和苹果的研究团队发现大模型中存在少量“超权重”,对模型表现极为重要。去掉一个“超权重”的影响比去掉其他7000个离群值权重加起来还要严重。“超权重”会导致“超激活”,放大输入token激活的离群值,并减少对常用词汇的注意力。研究团队改进了RNQ技术,提出了对算力特别友好的方法,与SmoothQuant效果相当,可在处理更大数据块时保持模型效果。
来源:https://mp.weixin.qq.com/s/9HXDFQxl5AiZeyWMufOEig
页: [1]
查看完整版本: “超权重”对大模型表现至关重要,苹果提出新量化方法