GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车
来自北航、中关村实验室和南洋理工大学等机构的研究团队提出全球首个面向具身智能体安全性的综合性评测基准——AGENTSAFE,揭示当前主流视觉语言模型在“越狱”攻击下可能引导机器人执行危险行为。该评测基于AI2-THOR平台构建了45种真实场景和104种交互物体,并设计了9900条危险指令,结合6种“越狱”攻击手段进行端到端测试。实验显示,GPT-4o、Gemini等模型在普通任务中表现良好,但在“越狱”后安全机制显著失效。该研究获ICML 2025杰出论文奖,团队计划公开相关资源以推动智能体安全研究。来源:https://mp.weixin.qq.com/s/yeRcBsADsI2UUF-8znOkog
页:
[1]