麦吉尔大学等推出首个工程图纸修改评估基准DrafterBench,测大模型“打工”能力

[复制链接]
周大 发表于 2025-7-18 14:09:41 | 显示全部楼层 |阅读模式
加拿大麦吉尔大学与加州大学圣芭芭拉分校联合推出首个面向工程自动化任务的大模型评估基准DrafterBench,旨在测试LLM在土木工程图纸修改中的实际执行能力。该基准包含1920个真实任务,覆盖12类指令类型,全面评估模型的结构化理解、工具调用、指令跟随与批判性推理能力。测试结果显示,主流模型如GPT-4o/o1、Claude 3.5 Sonnet等得分普遍超过65分,其中OpenAI o1以79.9分领先,但整体仍无法满足工程一线对精确性与完整性的要求。研究揭示模型在多步骤任务中易出现参数错误、工具组合混乱等问题,导致最终任务完成率仅约40%。DrafterBench首次实现对大模型“干不干得好”的落地评估,未来将扩展至更多工程应用场景。
来源:https://mp.weixin.qq.com/s/Jaa6lC2_OHY9GxXyVXv2ww

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 12:57 , Processed in 0.286081 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表