提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使

周大发表于 2024-7-19 15:17:41

瑞士科学家发现，通过将时间设定为过去，可以轻易绕过大模型如GPT-4o的安全防护，攻击成功率从1%跃升至88%。这一简单但有效的攻击方式暴露了现有大模型安全措施的脆弱性。研究还表明，尽管改变时间为未来也能提高攻击成功率，但效果不及过去明显。研究人员提出，通过微调和添加拒绝示例，可以增强模型抵御此类攻击的能力。
来源：https://mp.weixin.qq.com/s/bwJ8ITkzxW3GrvDN8DaZ0w

页: [1]

靠浦ai课堂's Archiver

提示词用上“过去式“，秒破GPT4o等六大模型安全限制！中文语境也好使