大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑
多个大模型如GPT-4o、Claude等参与“你画我猜”游戏,人类围观并评价。Claude表现最佳,赢得3次胜利,而GPT-4o的表现则较为抽象。该项目由Paul Calcraft在一天内实现,被视为新的测试基准。网友对项目评价褒贬不一,提出多种优化建议,认为游戏化学习可应用于大模型训练。作者表示将继续更新游戏,增加更多功能。来源:https://mp.weixin.qq.com/s/ijI2mDlmDbdXuNzs4ACq-w
页:
[1]