全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

[复制链接]
周大 发表于 2025-7-11 14:59:39 | 显示全部楼层 |阅读模式
Ai2联合耶鲁与纽约大学推出首个面向科研任务的大模型评估平台SciArena,支持对23款主流模型在真实科研场景中的表现进行对比。OpenAI o3整体领先,DeepSeek进入前四。平台采用匿名双盲机制及多阶段检索流程,结合102位科研专家的13000次投票,构建出高一致性的评估体系。结果显示,尽管AI辅助科研已广泛普及(渗透率达70%,相关论文增长150%),但自动评估系统在理解科研人员偏好方面仍存在明显局限,最佳模型预测准确率仅65.1%。加入推理能力的模型表现更优,表明推理能力对科研任务至关重要。SciArena-Eval有望成为未来科研AI评估的新标准。
来源:https://mp.weixin.qq.com/s/zHz55l07BVxs4ik1L3T6Wg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 23:20 , Processed in 0.320770 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表