研究揭示AI大模型多轮对话安全风险
上海交通大学与上海人工智能实验室的研究团队发表了一篇论文,质疑AI大模型推理能力的提升能否解决安全问题。研究表明,即使是最先进的AI模型如OpenAI的o1,在多轮对话中仍可能被诱导泄露有害信息。研究团队设计了名为ActorAttack的多轮攻击算法,该算法在多个大模型上的攻击成功率高达80%。此外,研究团队还开源了首个多轮对话安全对齐数据集,以帮助提升AI模型在多轮对话中的安全性。来源:https://mp.weixin.qq.com/s/2YigAsPG5MLb_fU2yK2hxw
页:
[1]