周大 发表于 2024-7-11 16:25:07

MMLU-PRO大模型测试公平性遭质疑

MMLU-PRO,一个广泛用于测试大模型性能的基准,近日遭质疑其评估方法可能存在偏颇,倾向于闭源模型。网友发现,测试中的参数设置、系统提示和答案提取标准不一,导致模型分数差异。例如,简单修改系统提示,开源模型的性能即显著提升。官方虽回应称这些差异对结果影响小于1%,但这一事件引发了对测试公平性和可靠性的讨论。
来源:https://mp.weixin.qq.com/s/x1oQCSFq0_RJrDwfEaRCYg
页: [1]
查看完整版本: MMLU-PRO大模型测试公平性遭质疑