Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制

[复制链接]
周大 发表于 2025-8-11 14:44:15 | 显示全部楼层 |阅读模式
清华大学与美团研究人员首次发现MoE大语言模型中存在“超级专家”,其数量极少但对模型性能至关重要。实验证明,裁剪少量超级专家即可导致模型性能显著下降,尤其在推理任务中近乎崩溃。研究还揭示超级专家通过引发大值激活和注意力汇聚区,对模型机制至关重要,并开发了自动化识别工具。该发现为MoE模型压缩提供了新方向。
来源:https://mp.weixin.qq.com/s/3wiG77H5KMKEnOB6yGSpqA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 23:15 , Processed in 0.287390 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表