清华团队提出STAIR框架:大模型安全对齐引入系统2思考,显著提升抗越狱能力

[复制链接]
周大 发表于 2025-6-25 14:50:38 | 显示全部楼层 |阅读模式
清华大学研究团队提出新型大语言模型安全对齐框架STAIR,通过引入系统2思考机制,推动模型从“条件反射式拒答”转向“理性分析风险”。该框架包含结构化推理对齐、安全感知蒙特卡洛树搜索自提升及测试时扩展三个阶段,实验证明其在Llama-3.1-8B等模型上显著提升安全性能,在StrongReject测试中表现优于Claude-3.5,同时保留通用任务能力。基于该框架,团队还推出了RealSafe-R1模型,成功实现对DeepSeek-R1的安全对齐,构建了15,000条安全推理轨迹,避免传统方法中的性能损失。研究成果已被ICML 2025接收为Oral论文,相关资源已开源。
来源:https://mp.weixin.qq.com/s/y-EjOk7CbKaZqBt1Soc2lQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-25 13:20 , Processed in 0.294609 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表