OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全

[复制链接]
周大 发表于 2024-11-6 14:19:12 | 显示全部楼层 |阅读模式
OpenAI 安全团队发布新研究,提出基于规则的奖励(RBR)机制,以提升语言模型的安全性。RBR 机制基于之前的 RLHF 和 RLAIF 研究成果,通过具体规则对模型响应进行细粒度控制,避免行为规范在蒸馏到奖励模型时的丢失。实验表明,RBR 的安全性能与人类反馈基准相当,且能减少过度拒绝情况,同时不影响模型的常见能力基准评估性能。
来源:https://mp.weixin.qq.com/s/amO3828miwEnr8aQBLpW9A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 15:03 , Processed in 0.293623 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表