研究揭示AI大模型多轮对话安全风险

周大发表于 2024-11-8 14:12:20

上海交通大学与上海人工智能实验室的研究团队发表了一篇论文，质疑AI大模型推理能力的提升能否解决安全问题。研究表明，即使是最先进的AI模型如OpenAI的o1，在多轮对话中仍可能被诱导泄露有害信息。研究团队设计了名为ActorAttack的多轮攻击算法，该算法在多个大模型上的攻击成功率高达80%。此外，研究团队还开源了首个多轮对话安全对齐数据集，以帮助提升AI模型在多轮对话中的安全性。
来源：https://mp.weixin.qq.com/s/2YigAsPG5MLb_fU2yK2hxw

页: [1]

靠浦ai课堂's Archiver

研究揭示AI大模型多轮对话安全风险