“超权重”对大模型表现至关重要,苹果提出新量化方法

[复制链接]
周大 发表于 2024-11-19 14:35:09 | 显示全部楼层 |阅读模式
圣母大学和苹果的研究团队发现大模型中存在少量“超权重”,对模型表现极为重要。去掉一个“超权重”的影响比去掉其他7000个离群值权重加起来还要严重。“超权重”会导致“超激活”,放大输入token激活的离群值,并减少对常用词汇的注意力。研究团队改进了RNQ技术,提出了对算力特别友好的方法,与SmoothQuant效果相当,可在处理更大数据块时保持模型效果。
来源:https://mp.weixin.qq.com/s/9HXDFQxl5AiZeyWMufOEig

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-29 15:34 , Processed in 0.292064 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表