清华与上海AI Lab发布专家级医学基准MedXpertQA,覆盖17专科11身体系统,评估AI模型临床推理能力

[复制链接]
周大 发表于 2025-7-8 15:21:28 | 显示全部楼层 |阅读模式
清华大学与上海 AI Lab 联合提出新型医学评估基准 MedXpertQA,旨在解决现有基准难度不足和临床相关性差的问题。该基准包含 4,460 个问题,覆盖 17 个医学专科及 11 个身体系统,分为文本与多模态两个子集。其构建基于权威医学考试数据,经过严格筛选与专家评审,确保高难度、低数据泄露和贴近真实临床场景。测试结果显示,即使表现最优的 o1 模型在 MedXpertQA 上准确率仍未突破 50%,表明医学 AI 仍有较大发展空间。尤其在 Reasoning 子集中,推理增强模型展现出显著优势,突显该基准对评估复杂医学推理能力的价值。
来源:https://mp.weixin.qq.com/s/xTfVrtXDRK3c0kB2dCGY-g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 05:00 , Processed in 0.294625 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表