靠浦ai课堂's Archiver
版块
›
靠浦ai资讯
› 新基准测试Arena-Hard发布
周大
发表于 2024-4-22 21:54:29
新基准测试Arena-Hard发布
最新基准测试Arena-Hard推出,模型性能区分度显著,测试数据针对真实用户提示词,降低数据泄露风险。使用GPT-4做评判偏好自身输出,与人类投票结果存在差距。使用Claude 3评判结果偏向开源模型。
来源:https://mp.weixin.qq.com/s/-lZKrLWICRdnabzvoqvGKw
页:
[1]
查看完整版本:
新基准测试Arena-Hard发布