周大 发表于 2024-6-26 17:08:18

OR-Bench:新基准挑战AI语言模型的过度拒绝问题

UCLA 和 UCB 的研究人员针对人工智能模型过度拒绝问题,推出 OR-Bench 新基准,旨在评估和优化大型语言模型的安全响应。此基准包含大量测试提示,以暴露模型在拒绝潜在有害内容时过度谨慎的现象,影响其效用和用户体验。研究发现,大多数模型在追求安全性时过度拒绝,但通过改进的数据集和评估工具,有望减少这种行为,提升模型的实用性和用户满意度。
来源:https://mp.weixin.qq.com/s/p0b5snpZ5UGc34OqWdmjog
页: [1]
查看完整版本: OR-Bench:新基准挑战AI语言模型的过度拒绝问题