AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

周大发表于 2024-11-15 14:40:37

在《我的世界》中，新旧两版Claude 3.5 Sonnet进行了盖楼比赛，新版（Sonnet 3.6）表现更佳，被戏称为“唯一可靠的评测基准”。开源社区迅速将代码上架GitHub，更多模型测试结果陆续出炉。其中，OpenAI o1系列在盖楼测试中表现出不同的特点，o1-preview结构更完整但速度较慢。在2000多名网友的投票中，Sonnet 3.6在创意性上略胜一筹。MC Bench项目计划进一步完善，加入类似Lmsys大模型竞技场的天梯机制，更多AI模型的表现也在持续更新中。
来源：https://mp.weixin.qq.com/s/_ZkhXxvEpe3ZOWZq4wC3cQ

		自动登录	找回密码
密码			立即注册

课程导航

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种