GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的

[复制链接]
周大 发表于 2025-8-12 13:50:48 | 显示全部楼层 |阅读模式
OpenAI在评估GPT-5编程能力时使用了自行缩减的SWE-bench Verified测试集,仅包含477个问题(原500题),引发争议。若未测试的23题默认得零分,GPT-5得分将低于Claude Opus 4.1。此前GPT-4.1发布时也因相同原因省略问题。Anthropic指出OpenAI将“最大思维努力”的GPT-5与基础输出的Opus对比,缺乏公平性。Claude 4系列在完整500题上测试,并明确指出OpenAI的测试子集问题。SWE-bench Verified本身由OpenAI参与优化,此次操作被质疑影响评估可信度。在原始SWE-bench榜单中,Claude 4 Opus仍领先。
来源:https://mp.weixin.qq.com/s/gVvvkiIFFT8GWZcVwhWS9Q

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 06:44 , Processed in 0.282833 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表