GameBoT评测大模型游戏推理能力

周大发表于 2025-3-29 14:29:19

针对传统LLM评测基准面临的性能饱和与数据污染问题，港大、剑桥和北大研究团队推出GameBoT，通过8款游戏对主流大模型进行推理能力评估。与仅关注胜负的传统方法不同，GameBoT引入中间步骤评测，提升评估细粒度与可解释性。实验覆盖17个顶级LLM，结果显示O3-mini-high在中间步骤得分和整体推理性能上表现最佳，而Deepseek R1尽管最终决策优秀，但中间思考过程冗长且不易读。这表明当前大模型仍需改进多步推理能力。
来源：https://mp.weixin.qq.com/s/kFhbTW5wzkEU-N7OU8qxpg

页: [1]

靠浦ai课堂's Archiver

GameBoT评测大模型游戏推理能力