FalseReject数据集助LLM缓解过度拒绝,安全接受率大幅提升
最新研究表明,当前大型语言模型(LLM)普遍存在“过度拒绝”问题,即使面对合理请求也可能误判为敏感内容。研究指出模型规模与判断能力无直接关联,开源模型在某些场景表现优于闭源模型。通过新提出的上下文感知响应机制及FalseReject数据集(含15000训练样本与1100测试样本),研究人员成功提升模型对安全提问的接受率最高达70%,且不影响安全性或语言能力。该方法为改进AI实用性和可靠性提供了有效路径。来源:https://mp.weixin.qq.com/s/jQrZdGXlP0xYlGfO95hoIA
页:
[1]