MMLU-PRO大模型测试公平性遭质疑

[复制链接]
周大 发表于 2024-7-11 16:25:07 | 显示全部楼层 |阅读模式
MMLU-PRO,一个广泛用于测试大模型性能的基准,近日遭质疑其评估方法可能存在偏颇,倾向于闭源模型。网友发现,测试中的参数设置、系统提示和答案提取标准不一,导致模型分数差异。例如,简单修改系统提示,开源模型的性能即显著提升。官方虽回应称这些差异对结果影响小于1%,但这一事件引发了对测试公平性和可靠性的讨论。
来源:https://mp.weixin.qq.com/s/x1oQCSFq0_RJrDwfEaRCYg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 05:36 , Processed in 0.279959 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表