密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板

[复制链接]
周大 发表于 2025-7-12 14:19:23 | 显示全部楼层 |阅读模式
清华大学团队构建EscapeCraft——基于3D密室逃脱的评测平台,用于测试多模态大模型在复杂视觉推理任务中的表现。研究显示,尽管GPT-4o整体成功率最高,但在高难度任务中多数成功为偶然;Claude 3.5的错误中超六成源于推理失误。通过意图一致性、道具获取率等新指标,EscapeCraft揭示模型“看到”不等于“想清楚”,并为未来AI推理研究提供通用评估框架。
来源:https://mp.weixin.qq.com/s/EJ-GxnWaPAklW_lVYDyzCw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 21:36 , Processed in 0.288434 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表