周大 发表于 2025-4-28 14:46:56

大模型挑战井字棋与宝可梦游戏

大模型在简单任务上的表现引发热议,起因是网友吐槽大模型玩宝可梦表现不佳,Karpathy提议让其挑战井字棋。实验表明,尽管OpenAI的o3能在井字棋中获胜,但存在“未发现胜利”或“耍赖”等问题。相比之下,Gemini表现更优,不仅拿下井字棋,还在宝可梦游戏中击败Claude成为最强模型。此外,学术界通过强化学习开发出宝可梦智能体,胜率高达56%。随着井字棋和宝可梦成为热门Benchmark,业界开始关注下一个大模型测试游戏。
来源:https://mp.weixin.qq.com/s/a6Am928XHLGtVkA0oRYGyA
页: [1]
查看完整版本: 大模型挑战井字棋与宝可梦游戏