大模型挑战井字棋与宝可梦游戏

周大发表于 2025-4-28 14:46:56

大模型在简单任务上的表现引发热议，起因是网友吐槽大模型玩宝可梦表现不佳，Karpathy提议让其挑战井字棋。实验表明，尽管OpenAI的o3能在井字棋中获胜，但存在“未发现胜利”或“耍赖”等问题。相比之下，Gemini表现更优，不仅拿下井字棋，还在宝可梦游戏中击败Claude成为最强模型。此外，学术界通过强化学习开发出宝可梦智能体，胜率高达56%。随着井字棋和宝可梦成为热门Benchmark，业界开始关注下一个大模型测试游戏。
来源：https://mp.weixin.qq.com/s/a6Am928XHLGtVkA0oRYGyA

		自动登录	找回密码
密码			立即注册

课程导航

大模型挑战井字棋与宝可梦游戏