GameBoT评测大模型游戏推理能力

[复制链接]
周大 发表于 7 天前 | 显示全部楼层 |阅读模式
针对传统LLM评测基准面临的性能饱和与数据污染问题,港大、剑桥和北大研究团队推出GameBoT,通过8款游戏对主流大模型进行推理能力评估。与仅关注胜负的传统方法不同,GameBoT引入中间步骤评测,提升评估细粒度与可解释性。实验覆盖17个顶级LLM,结果显示O3-mini-high在中间步骤得分和整体推理性能上表现最佳,而Deepseek R1尽管最终决策优秀,但中间思考过程冗长且不易读。这表明当前大模型仍需改进多步推理能力。
来源:https://mp.weixin.qq.com/s/kFhbTW5wzkEU-N7OU8qxpg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 05:29 , Processed in 0.293240 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表