清华团队提出STAIR框架:大模型安全对齐引入系统2思考,显著提升抗越狱能力
清华大学研究团队提出新型大语言模型安全对齐框架STAIR,通过引入系统2思考机制,推动模型从“条件反射式拒答”转向“理性分析风险”。该框架包含结构化推理对齐、安全感知蒙特卡洛树搜索自提升及测试时扩展三个阶段,实验证明其在Llama-3.1-8B等模型上显著提升安全性能,在StrongReject测试中表现优于Claude-3.5,同时保留通用任务能力。基于该框架,团队还推出了RealSafe-R1模型,成功实现对DeepSeek-R1的安全对齐,构建了15,000条安全推理轨迹,避免传统方法中的性能损失。研究成果已被ICML 2025接收为Oral论文,相关资源已开源。来源:https://mp.weixin.qq.com/s/y-EjOk7CbKaZqBt1Soc2lQ
页:
[1]