周大 发表于 2025-7-11 14:59:39

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

Ai2联合耶鲁与纽约大学推出首个面向科研任务的大模型评估平台SciArena,支持对23款主流模型在真实科研场景中的表现进行对比。OpenAI o3整体领先,DeepSeek进入前四。平台采用匿名双盲机制及多阶段检索流程,结合102位科研专家的13000次投票,构建出高一致性的评估体系。结果显示,尽管AI辅助科研已广泛普及(渗透率达70%,相关论文增长150%),但自动评估系统在理解科研人员偏好方面仍存在明显局限,最佳模型预测准确率仅65.1%。加入推理能力的模型表现更优,表明推理能力对科研任务至关重要。SciArena-Eval有望成为未来科研AI评估的新标准。
来源:https://mp.weixin.qq.com/s/zHz55l07BVxs4ik1L3T6Wg
页: [1]
查看完整版本: 全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四