如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降
扩散模型在文本到图像生成中表现出色,但也面临生成不当内容的安全问题。密歇根州立大学OPTML实验室提出AdvUnlearn框架,结合对抗性训练和概念擦除技术,提升模型在对抗性提示攻击下的鲁棒性。该框架通过双层优化策略和保留效用的正则化方法,有效降低对抗性攻击成功率,同时保持高质量图像生成。实验结果显示,AdvUnlearn在裸露、艺术风格和对象概念擦除任务中表现出色,显著提升了模型的安全性和可靠性。来源:https://mp.weixin.qq.com/s/EBWMB6Jl6rQLSC98HTTthw
页:
[1]