OR-Bench:新基准挑战AI语言模型的过度拒绝问题
UCLA 和 UCB 的研究人员针对人工智能模型过度拒绝问题,推出 OR-Bench 新基准,旨在评估和优化大型语言模型的安全响应。此基准包含大量测试提示,以暴露模型在拒绝潜在有害内容时过度谨慎的现象,影响其效用和用户体验。研究发现,大多数模型在追求安全性时过度拒绝,但通过改进的数据集和评估工具,有望减少这种行为,提升模型的实用性和用户满意度。来源:https://mp.weixin.qq.com/s/p0b5snpZ5UGc34OqWdmjog
页:
[1]