用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

[复制链接]
周大 发表于 2025-1-23 15:52:02 | 显示全部楼层 |阅读模式
北京交通大学ADaM团队提出“系统2对齐”概念,旨在通过慢思考能力提升AI模型安全性。研究表明,系统2对齐能有效增强传统系统1模型的安全性,尤其在对抗复杂越狱攻击方面表现突出。团队通过提示工程、监督微调、直接偏好优化及强化学习等方法实现系统2对齐,实验显示不同模型需量身定制调整策略。该研究为AI安全提供了新的思考方向,即从被动防护转向内在推理和批判性思考,为未来模型安全设计提供了重要参考。
来源:https://mp.weixin.qq.com/s/SYrHMQFi1teOl0FT4R4O_A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 12:43 , Processed in 0.305346 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表