OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安全

周大发表于 2024-11-6 14:19:12

OpenAI 安全团队发布新研究，提出基于规则的奖励（RBR）机制，以提升语言模型的安全性。RBR 机制基于之前的 RLHF 和 RLAIF 研究成果，通过具体规则对模型响应进行细粒度控制，避免行为规范在蒸馏到奖励模型时的丢失。实验表明，RBR 的安全性能与人类反馈基准相当，且能减少过度拒绝情况，同时不影响模型的常见能力基准评估性能。
来源：https://mp.weixin.qq.com/s/amO3828miwEnr8aQBLpW9A

页: [1]

靠浦ai课堂's Archiver

OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安全