新基准测试Arena-Hard发布

周大发表于 2024-4-22 21:54:29

最新基准测试Arena-Hard推出，模型性能区分度显著，测试数据针对真实用户提示词，降低数据泄露风险。使用GPT-4做评判偏好自身输出，与人类投票结果存在差距。使用Claude 3评判结果偏向开源模型。
来源：https://mp.weixin.qq.com/s/-lZKrLWICRdnabzvoqvGKw

页: [1]

靠浦ai课堂's Archiver

新基准测试Arena-Hard发布