棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

周大发表于 2025-3-25 14:07:36

普林斯顿与德州大学奥斯丁分校联合开发了全新的SPIN-Bench评测基准，用以评估大语言模型在战略规划和社会推理方面的表现。实验发现，尽管顶尖大模型（如o1、GPT-4o、Claude 3.5等）在简单任务中表现出色，但在涉及多智能体协作、复杂推理和谈判的场景中却遭遇“滑铁卢”。具体而言，大模型在状态空间较大的环境中容易出现多步推理瓶颈，且在不完全信息推断及多跳推理任务中表现乏力。此外，即便是在最佳模型中，其在深度合作和多方谈判中的表现也远低于人类平均水平。研究者认为，未来需通过强化学习或多智能体训练框架提升大模型的规划与社交能力。
来源：https://mp.weixin.qq.com/s/lJP03UX8bbgAP-Ezissb6g

页: [1]

靠浦ai课堂's Archiver

棋盘变战场，大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈