周大 发表于 2025-3-2 15:09:29

RACE框架揭示大语言模型新安全威胁

近期,来自北京航空航天大学等机构的研究团队提出名为RACE的新型多轮攻击框架,该框架通过推理增强对话方式突破大语言模型的安全对齐机制。RACE利用大语言模型强大的推理能力,将有害意图伪装成无害推理任务,在不知不觉中引导模型生成有害内容。实验结果表明,RACE在多种大语言模型上的攻击成功率最高可达96%,对现有防御方法具有很强的鲁棒性。这一研究揭示了大语言模型可能存在的安全漏洞,为开发更强大的安全机制提供了新思路。
来源:https://mp.weixin.qq.com/s/qE1GxP_KPnwtyfTrB9PM8Q
页: [1]
查看完整版本: RACE框架揭示大语言模型新安全威胁