研究揭示AI大模型多轮对话安全风险

[复制链接]
周大 发表于 2024-11-8 14:12:20 | 显示全部楼层 |阅读模式
上海交通大学与上海人工智能实验室的研究团队发表了一篇论文,质疑AI大模型推理能力的提升能否解决安全问题。研究表明,即使是最先进的AI模型如OpenAI的o1,在多轮对话中仍可能被诱导泄露有害信息。研究团队设计了名为ActorAttack的多轮攻击算法,该算法在多个大模型上的攻击成功率高达80%。此外,研究团队还开源了首个多轮对话安全对齐数据集,以帮助提升AI模型在多轮对话中的安全性。
来源:https://mp.weixin.qq.com/s/2YigAsPG5MLb_fU2yK2hxw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-16 20:23 , Processed in 0.297309 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表