用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

周大发表于 2025-1-23 15:52:02

北京交通大学ADaM团队提出“系统2对齐”概念，旨在通过慢思考能力提升AI模型安全性。研究表明，系统2对齐能有效增强传统系统1模型的安全性，尤其在对抗复杂越狱攻击方面表现突出。团队通过提示工程、监督微调、直接偏好优化及强化学习等方法实现系统2对齐，实验显示不同模型需量身定制调整策略。该研究为AI安全提供了新的思考方向，即从被动防护转向内在推理和批判性思考，为未来模型安全设计提供了重要参考。
来源：https://mp.weixin.qq.com/s/SYrHMQFi1teOl0FT4R4O_A

页: [1]

靠浦ai课堂's Archiver

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐