棋盘变战场,大模型却呆了?普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

[复制链接]
周大 发表于 2025-3-25 14:07:36 | 显示全部楼层 |阅读模式
普林斯顿与德州大学奥斯丁分校联合开发了全新的SPIN-Bench评测基准,用以评估大语言模型在战略规划和社会推理方面的表现。实验发现,尽管顶尖大模型(如o1、GPT-4o、Claude 3.5等)在简单任务中表现出色,但在涉及多智能体协作、复杂推理和谈判的场景中却遭遇“滑铁卢”。具体而言,大模型在状态空间较大的环境中容易出现多步推理瓶颈,且在不完全信息推断及多跳推理任务中表现乏力。此外,即便是在最佳模型中,其在深度合作和多方谈判中的表现也远低于人类平均水平。研究者认为,未来需通过强化学习或多智能体训练框架提升大模型的规划与社交能力。
来源:https://mp.weixin.qq.com/s/lJP03UX8bbgAP-Ezissb6g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 09:16 , Processed in 0.294091 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表