全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

周大发表于 2025-7-11 14:59:39

Ai2联合耶鲁与纽约大学推出首个面向科研任务的大模型评估平台SciArena，支持对23款主流模型在真实科研场景中的表现进行对比。OpenAI o3整体领先，DeepSeek进入前四。平台采用匿名双盲机制及多阶段检索流程，结合102位科研专家的13000次投票，构建出高一致性的评估体系。结果显示，尽管AI辅助科研已广泛普及（渗透率达70%，相关论文增长150%），但自动评估系统在理解科研人员偏好方面仍存在明显局限，最佳模型预测准确率仅65.1%。加入推理能力的模型表现更优，表明推理能力对科研任务至关重要。SciArena-Eval有望成为未来科研AI评估的新标准。
来源：https://mp.weixin.qq.com/s/zHz55l07BVxs4ik1L3T6Wg

页: [1]

靠浦ai课堂's Archiver

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四