OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
OpenAI 安全团队发布新研究,提出基于规则的奖励(RBR)机制,以提升语言模型的安全性。RBR 机制基于之前的 RLHF 和 RLAIF 研究成果,通过具体规则对模型响应进行细粒度控制,避免行为规范在蒸馏到奖励模型时的丢失。实验表明,RBR 的安全性能与人类反馈基准相当,且能减少过度拒绝情况,同时不影响模型的常见能力基准评估性能。来源:https://mp.weixin.qq.com/s/amO3828miwEnr8aQBLpW9A
页:
[1]