AI在《我的世界》PK盖楼,新旧Claude差距过于明显,网友:审美也是智力的一种

[复制链接]
周大 发表于 2024-11-15 14:40:37 | 显示全部楼层 |阅读模式
在《我的世界》中,新旧两版Claude 3.5 Sonnet进行了盖楼比赛,新版(Sonnet 3.6)表现更佳,被戏称为“唯一可靠的评测基准”。开源社区迅速将代码上架GitHub,更多模型测试结果陆续出炉。其中,OpenAI o1系列在盖楼测试中表现出不同的特点,o1-preview结构更完整但速度较慢。在2000多名网友的投票中,Sonnet 3.6在创意性上略胜一筹。MC Bench项目计划进一步完善,加入类似Lmsys大模型竞技场的天梯机制,更多AI模型的表现也在持续更新中。
来源:https://mp.weixin.qq.com/s/_ZkhXxvEpe3ZOWZq4wC3cQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-27 01:17 , Processed in 0.288803 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表