清华团队提出STAIR框架：大模型安全对齐引入系统2思考，显著提升抗越狱能力

周大发表于 2025-6-25 14:50:38

清华大学研究团队提出新型大语言模型安全对齐框架STAIR，通过引入系统2思考机制，推动模型从“条件反射式拒答”转向“理性分析风险”。该框架包含结构化推理对齐、安全感知蒙特卡洛树搜索自提升及测试时扩展三个阶段，实验证明其在Llama-3.1-8B等模型上显著提升安全性能，在StrongReject测试中表现优于Claude-3.5，同时保留通用任务能力。基于该框架，团队还推出了RealSafe-R1模型，成功实现对DeepSeek-R1的安全对齐，构建了15,000条安全推理轨迹，避免传统方法中的性能损失。研究成果已被ICML 2025接收为Oral论文，相关资源已开源。
来源：https://mp.weixin.qq.com/s/y-EjOk7CbKaZqBt1Soc2lQ

		自动登录	找回密码
密码			立即注册

课程导航

清华团队提出STAIR框架：大模型安全对齐引入系统2思考，显著提升抗越狱能力