大模型挑战井字棋与宝可梦游戏
大模型在简单任务上的表现引发热议,起因是网友吐槽大模型玩宝可梦表现不佳,Karpathy提议让其挑战井字棋。实验表明,尽管OpenAI的o3能在井字棋中获胜,但存在“未发现胜利”或“耍赖”等问题。相比之下,Gemini表现更优,不仅拿下井字棋,还在宝可梦游戏中击败Claude成为最强模型。此外,学术界通过强化学习开发出宝可梦智能体,胜率高达56%。随着井字棋和宝可梦成为热门Benchmark,业界开始关注下一个大模型测试游戏。来源:https://mp.weixin.qq.com/s/a6Am928XHLGtVkA0oRYGyA
页:
[1]