OpenAI发布PaperBench评估AI科研复现能力

周大发表于 2025-4-3 13:10:56

OpenAI发布新框架PaperBench，用于评估AI智能体复现ICML 2024顶会论文的能力。该框架涵盖20篇论文及8,316个评分任务，结果显示Claude 3.5 Sonnet表现最佳，得分为21.0%，但仍逊色于机器学习博士的41.4%。PaperBench揭示了AI在科研中的潜力及其长期规划能力的局限性，并通过大模型自动评判系统将评分成本降至约10美元/论文，展现了高效性与经济性。
来源：https://mp.weixin.qq.com/s/JjrJMG_ftSHqDYbc4SOMPA

页: [1]

靠浦ai课堂's Archiver

OpenAI发布PaperBench评估AI科研复现能力