清华与上海AI Lab发布专家级医学基准MedXpertQA，覆盖17专科11身体系统，评估AI模型临床推理能力

周大发表于 2025-7-8 15:21:28

清华大学与上海 AI Lab 联合提出新型医学评估基准 MedXpertQA，旨在解决现有基准难度不足和临床相关性差的问题。该基准包含 4,460 个问题，覆盖 17 个医学专科及 11 个身体系统，分为文本与多模态两个子集。其构建基于权威医学考试数据，经过严格筛选与专家评审，确保高难度、低数据泄露和贴近真实临床场景。测试结果显示，即使表现最优的 o1 模型在 MedXpertQA 上准确率仍未突破 50%，表明医学 AI 仍有较大发展空间。尤其在 Reasoning 子集中，推理增强模型展现出显著优势，突显该基准对评估复杂医学推理能力的价值。
来源：https://mp.weixin.qq.com/s/xTfVrtXDRK3c0kB2dCGY-g

		自动登录	找回密码
密码			立即注册

课程导航

清华与上海AI Lab发布专家级医学基准MedXpertQA，覆盖17专科11身体系统，评估AI模型临床推理能力