周大 发表于 2025-1-23 15:52:02

用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

北京交通大学ADaM团队提出“系统2对齐”概念,旨在通过慢思考能力提升AI模型安全性。研究表明,系统2对齐能有效增强传统系统1模型的安全性,尤其在对抗复杂越狱攻击方面表现突出。团队通过提示工程、监督微调、直接偏好优化及强化学习等方法实现系统2对齐,实验显示不同模型需量身定制调整策略。该研究为AI安全提供了新的思考方向,即从被动防护转向内在推理和批判性思考,为未来模型安全设计提供了重要参考。
来源:https://mp.weixin.qq.com/s/SYrHMQFi1teOl0FT4R4O_A
页: [1]
查看完整版本: 用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐