清华与上海AI Lab发布专家级医学基准MedXpertQA,覆盖17专科11身体系统,评估AI模型临床推理能力
清华大学与上海 AI Lab 联合提出新型医学评估基准 MedXpertQA,旨在解决现有基准难度不足和临床相关性差的问题。该基准包含 4,460 个问题,覆盖 17 个医学专科及 11 个身体系统,分为文本与多模态两个子集。其构建基于权威医学考试数据,经过严格筛选与专家评审,确保高难度、低数据泄露和贴近真实临床场景。测试结果显示,即使表现最优的 o1 模型在 MedXpertQA 上准确率仍未突破 50%,表明医学 AI 仍有较大发展空间。尤其在 Reasoning 子集中,推理增强模型展现出显著优势,突显该基准对评估复杂医学推理能力的价值。来源:https://mp.weixin.qq.com/s/xTfVrtXDRK3c0kB2dCGY-g
页:
[1]