ICML 2025:主动推理新基准AR-Bench揭示大模型信息不完备下提问能力不足

[复制链接]
周大 发表于 2025-7-24 14:28:14 | 显示全部楼层 |阅读模式
当前大语言模型(LLM)在被动推理任务中表现优异,但在信息不完整场景下需主动获取信息的“主动推理”(AR)能力仍显著不足。为此,TMLR课题组与斯坦福大学合作构建了AR-Bench基准,涵盖侦探案件、情景谜题和数字猜谜三类任务,通过多轮交互评估模型提问质量与信息获取能力。实验显示,即便是GPT-4o等顶尖模型,在AR-Bench上表现也较差,GN任务准确率仅35%,传统训练和搜索方法提升有限,且人类表现明显优于LLM。研究揭示了当前LLM在交互中提问质量递减、错误频发等问题,并指出未来应探索强化学习适配、高质量微调数据与更可靠验证器开发。该研究为推动LLM向更真实复杂场景应用提供了重要方向。
来源:https://mp.weixin.qq.com/s/zU8HcZ1q9Dt0KfTRPNcowg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 04:16 , Processed in 0.273281 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表