弹窗攻击显著降低 Claude 控制计算机性能
Anthropic 为 AI 模型 Claude 添加了“Computer Use”功能,使其能够控制用户的计算机。尽管在 OSWorld 测试中,Claude 的准确度为 14.9%,远高于其他 AI 模型(7.8%),但最新研究表明,简单的弹窗攻击可大幅降低其性能,点击率高达 92.7% 和 73.1%。研究揭示了视觉-语言模型的关键缺陷,强调了需要更先进的防御机制。实验测试了多种攻击方法,结果显示所有模型都缺乏弹窗相关的安全意识,直接提示智能体忽略弹窗的防御措施效果不佳。来源:https://mp.weixin.qq.com/s/CBeMh2gsTP3A5JIPdV3XAw
页:
[1]