周大 发表于 2024-7-19 15:17:41

提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使

瑞士科学家发现,通过将时间设定为过去,可以轻易绕过大模型如GPT-4o的安全防护,攻击成功率从1%跃升至88%。这一简单但有效的攻击方式暴露了现有大模型安全措施的脆弱性。研究还表明,尽管改变时间为未来也能提高攻击成功率,但效果不及过去明显。研究人员提出,通过微调和添加拒绝示例,可以增强模型抵御此类攻击的能力。
来源:https://mp.weixin.qq.com/s/bwJ8ITkzxW3GrvDN8DaZ0w
页: [1]
查看完整版本: 提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使