提示词用上“过去式“,秒破GPT4o等六大模型安全限制!中文语境也好使

[复制链接]
周大 发表于 2024-7-19 15:17:41 | 显示全部楼层 |阅读模式
瑞士科学家发现,通过将时间设定为过去,可以轻易绕过大模型如GPT-4o的安全防护,攻击成功率从1%跃升至88%。这一简单但有效的攻击方式暴露了现有大模型安全措施的脆弱性。研究还表明,尽管改变时间为未来也能提高攻击成功率,但效果不及过去明显。研究人员提出,通过微调和添加拒绝示例,可以增强模型抵御此类攻击的能力。
来源:https://mp.weixin.qq.com/s/bwJ8ITkzxW3GrvDN8DaZ0w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 01:29 , Processed in 0.294075 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表