MMLU-PRO大模型测试公平性遭质疑

周大发表于 2024-7-11 16:25:07

MMLU-PRO，一个广泛用于测试大模型性能的基准，近日遭质疑其评估方法可能存在偏颇，倾向于闭源模型。网友发现，测试中的参数设置、系统提示和答案提取标准不一，导致模型分数差异。例如，简单修改系统提示，开源模型的性能即显著提升。官方虽回应称这些差异对结果影响小于1%，但这一事件引发了对测试公平性和可靠性的讨论。
来源：https://mp.weixin.qq.com/s/x1oQCSFq0_RJrDwfEaRCYg

页: [1]

靠浦ai课堂's Archiver

MMLU-PRO大模型测试公平性遭质疑