SuperGPQA:字节开源全新知识推理测评集,覆盖285个学科

[复制链接]
周大 发表于 2025-3-4 15:18:09 | 显示全部楼层 |阅读模式
字节跳动与M-A-P开源社区推出全新大模型评测基准SuperGPQA,解决传统基准学科覆盖窄、题目质量低和评测维度单一的问题。SuperGPQA涵盖285个研究生级学科,26529道专业题目,耗时半年由近百位学者标注。实验表明,即使DeepSeek-R1在SuperGPQA上的准确率也仅61.82%,显著低于传统评估。该基准已在HuggingFace和GitHub开源,首次实现全学科覆盖,填补行业空白,并揭示国内模型在某些领域超越国际水平。
来源:https://mp.weixin.qq.com/s/3pBXCpUUdCW9LjXyY8RM5g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 05:30 , Processed in 0.395249 second(s), 33 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表