RACE框架揭示大语言模型新安全威胁

[复制链接]
周大 发表于 2025-3-2 15:09:29 | 显示全部楼层 |阅读模式
近期,来自北京航空航天大学等机构的研究团队提出名为RACE的新型多轮攻击框架,该框架通过推理增强对话方式突破大语言模型的安全对齐机制。RACE利用大语言模型强大的推理能力,将有害意图伪装成无害推理任务,在不知不觉中引导模型生成有害内容。实验结果表明,RACE在多种大语言模型上的攻击成功率最高可达96%,对现有防御方法具有很强的鲁棒性。这一研究揭示了大语言模型可能存在的安全漏洞,为开发更强大的安全机制提供了新思路。
来源:https://mp.weixin.qq.com/s/qE1GxP_KPnwtyfTrB9PM8Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 04:04 , Processed in 0.270121 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表