GameBoT评测大模型游戏推理能力
针对传统LLM评测基准面临的性能饱和与数据污染问题,港大、剑桥和北大研究团队推出GameBoT,通过8款游戏对主流大模型进行推理能力评估。与仅关注胜负的传统方法不同,GameBoT引入中间步骤评测,提升评估细粒度与可解释性。实验覆盖17个顶级LLM,结果显示O3-mini-high在中间步骤得分和整体推理性能上表现最佳,而Deepseek R1尽管最终决策优秀,但中间思考过程冗长且不易读。这表明当前大模型仍需改进多步推理能力。来源:https://mp.weixin.qq.com/s/kFhbTW5wzkEU-N7OU8qxpg
页:
[1]