周大 发表于 2025-3-4 15:18:09

SuperGPQA:字节开源全新知识推理测评集,覆盖285个学科

字节跳动与M-A-P开源社区推出全新大模型评测基准SuperGPQA,解决传统基准学科覆盖窄、题目质量低和评测维度单一的问题。SuperGPQA涵盖285个研究生级学科,26529道专业题目,耗时半年由近百位学者标注。实验表明,即使DeepSeek-R1在SuperGPQA上的准确率也仅61.82%,显著低于传统评估。该基准已在HuggingFace和GitHub开源,首次实现全学科覆盖,填补行业空白,并揭示国内模型在某些领域超越国际水平。
来源:https://mp.weixin.qq.com/s/3pBXCpUUdCW9LjXyY8RM5g
页: [1]
查看完整版本: SuperGPQA:字节开源全新知识推理测评集,覆盖285个学科