周大 发表于 2025-6-4 13:13:51

斯坦福医疗AI评测:DeepSeek R1以66%胜率夺冠,临床表现超谷歌OpenAI

斯坦福大学团队开发了名为MedHELM的医疗大模型评估框架,涵盖35个基准测试和22个子类别任务,重点模拟临床医生日常工作场景。评估结果显示,DeepSeek R1以66%胜率和0.75宏观平均分领先,o3-mini和Claude系列紧随其后。新开发的13个基准测试中有12个基于真实电子健康记录数据,提升了评估的真实性。研究发现,模型在自由文本生成任务中表现优异,但在结构化推理任务中表现较弱。此外,团队引入“大语言模型评审团”方法,与临床医生评分一致性达0.47,成本效益分析显示Claude系列模型性价比最优。
来源:https://tech.ifeng.com/c/8jsvYLxw3Fp
页: [1]
查看完整版本: 斯坦福医疗AI评测:DeepSeek R1以66%胜率夺冠,临床表现超谷歌OpenAI