评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024

周大发表于 2024-11-9 14:00:08

上海交通大学MIFA实验室提出了一种新的大模型评估指标Diff-eRank，该指标通过分析模型的隐藏表征，从信息论和几何的角度量化大语言模型在训练前后如何剔除数据中的冗余信息。与传统评估方法不同，Diff-eRank不关注模型输出，而是深入模型内部，提供了一个独特的理论视角。实验结果显示，Diff-eRank与模型规模呈正相关，且与准确率的趋势更加一致。此外，该方法还扩展到了多模态大模型的评估，通过分析视觉和语言表征的匹配程度来衡量模态对齐性能。这项工作已被NeurIPS 2024接收。
来源：https://mp.weixin.qq.com/s/D4K6jQI-EFfSuEKBx5_Kaw

页: [1]

靠浦ai课堂's Archiver

评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024