周大 发表于 6 天前

刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4

DeepSeek 的开源 R1 推理模型升级至 0528 版本,性能大幅提升,支持 JSON 输出和函数调用,并在多个基准测试中表现出色。在 LMArena 平台的文本基准测试中,DeepSeek-R1(0528)整体排名第 6,且在开放模型中排名第一,尤其在编程测试中排名第二。此外,在 WebDev Arena 平台上,该模型与闭源大模型并列第一,甚至超越了 Claude Opus 4。尽管其性能突出,但实际用户体验仍需进一步验证。作为完全开源的模型,DeepSeek-R1(0528)为开源 AI 领域树立了新标杆。
来源:https://mp.weixin.qq.com/s/GlUnbFh66FTzyi5YeNTZPA
页: [1]
查看完整版本: 刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4