密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板

周大发表于 2025-7-12 14:19:23

清华大学团队构建EscapeCraft——基于3D密室逃脱的评测平台，用于测试多模态大模型在复杂视觉推理任务中的表现。研究显示，尽管GPT-4o整体成功率最高，但在高难度任务中多数成功为偶然；Claude 3.5的错误中超六成源于推理失误。通过意图一致性、道具获取率等新指标，EscapeCraft揭示模型“看到”不等于“想清楚”，并为未来AI推理研究提供通用评估框架。
来源：https://mp.weixin.qq.com/s/EJ-GxnWaPAklW_lVYDyzCw

		自动登录	找回密码
密码			立即注册

课程导航

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板