RACE框架揭示大语言模型新安全威胁

周大发表于 2025-3-2 15:09:29

近期，来自北京航空航天大学等机构的研究团队提出名为RACE的新型多轮攻击框架，该框架通过推理增强对话方式突破大语言模型的安全对齐机制。RACE利用大语言模型强大的推理能力，将有害意图伪装成无害推理任务，在不知不觉中引导模型生成有害内容。实验结果表明，RACE在多种大语言模型上的攻击成功率最高可达96%，对现有防御方法具有很强的鲁棒性。这一研究揭示了大语言模型可能存在的安全漏洞，为开发更强大的安全机制提供了新思路。
来源：https://mp.weixin.qq.com/s/qE1GxP_KPnwtyfTrB9PM8Q

页: [1]

靠浦ai课堂's Archiver

RACE框架揭示大语言模型新安全威胁