周大 发表于 2024-4-22 21:54:29

新基准测试Arena-Hard发布

最新基准测试Arena-Hard推出,模型性能区分度显著,测试数据针对真实用户提示词,降低数据泄露风险。使用GPT-4做评判偏好自身输出,与人类投票结果存在差距。使用Claude 3评判结果偏向开源模型。
来源:https://mp.weixin.qq.com/s/-lZKrLWICRdnabzvoqvGKw
页: [1]
查看完整版本: 新基准测试Arena-Hard发布