评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024

[复制链接]
周大 发表于 2024-11-9 14:00:08 | 显示全部楼层 |阅读模式
上海交通大学MIFA实验室提出了一种新的大模型评估指标Diff-eRank,该指标通过分析模型的隐藏表征,从信息论和几何的角度量化大语言模型在训练前后如何剔除数据中的冗余信息。与传统评估方法不同,Diff-eRank不关注模型输出,而是深入模型内部,提供了一个独特的理论视角。实验结果显示,Diff-eRank与模型规模呈正相关,且与准确率的趋势更加一致。此外,该方法还扩展到了多模态大模型的评估,通过分析视觉和语言表征的匹配程度来衡量模态对齐性能。这项工作已被NeurIPS 2024接收。
来源:https://mp.weixin.qq.com/s/D4K6jQI-EFfSuEKBx5_Kaw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-28 05:08 , Processed in 0.279477 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表