斯坦福医疗AI评测：DeepSeek R1以66%胜率夺冠，临床表现超谷歌OpenAI

周大发表于 2025-6-4 13:13:51

斯坦福大学团队开发了名为MedHELM的医疗大模型评估框架，涵盖35个基准测试和22个子类别任务，重点模拟临床医生日常工作场景。评估结果显示，DeepSeek R1以66%胜率和0.75宏观平均分领先，o3-mini和Claude系列紧随其后。新开发的13个基准测试中有12个基于真实电子健康记录数据，提升了评估的真实性。研究发现，模型在自由文本生成任务中表现优异，但在结构化推理任务中表现较弱。此外，团队引入“大语言模型评审团”方法，与临床医生评分一致性达0.47，成本效益分析显示Claude系列模型性价比最优。
来源：https://tech.ifeng.com/c/8jsvYLxw3Fp

页: [1]

靠浦ai课堂's Archiver

斯坦福医疗AI评测：DeepSeek R1以66%胜率夺冠，临床表现超谷歌OpenAI