大模型挑战井字棋与宝可梦游戏

周大发表于 2025-4-28 14:46:56

大模型在简单任务上的表现引发热议，起因是网友吐槽大模型玩宝可梦表现不佳，Karpathy提议让其挑战井字棋。实验表明，尽管OpenAI的o3能在井字棋中获胜，但存在“未发现胜利”或“耍赖”等问题。相比之下，Gemini表现更优，不仅拿下井字棋，还在宝可梦游戏中击败Claude成为最强模型。此外，学术界通过强化学习开发出宝可梦智能体，胜率高达56%。随着井字棋和宝可梦成为热门Benchmark，业界开始关注下一个大模型测试游戏。
来源：https://mp.weixin.qq.com/s/a6Am928XHLGtVkA0oRYGyA

页: [1]

靠浦ai课堂's Archiver

大模型挑战井字棋与宝可梦游戏