GPT-4o遭越狱后指挥机器人做危险动作!全球首个具身智能体安全评测基准来了,大模型集体翻车

[复制链接]
周大 发表于 2025-8-1 15:30:50 | 显示全部楼层 |阅读模式
来自北航、中关村实验室和南洋理工大学等机构的研究团队提出全球首个面向具身智能体安全性的综合性评测基准——AGENTSAFE,揭示当前主流视觉语言模型在“越狱”攻击下可能引导机器人执行危险行为。该评测基于AI2-THOR平台构建了45种真实场景和104种交互物体,并设计了9900条危险指令,结合6种“越狱”攻击手段进行端到端测试。实验显示,GPT-4o、Gemini等模型在普通任务中表现良好,但在“越狱”后安全机制显著失效。该研究获ICML 2025杰出论文奖,团队计划公开相关资源以推动智能体安全研究。
来源:https://mp.weixin.qq.com/s/yeRcBsADsI2UUF-8znOkog

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-28 01:53 , Processed in 0.299560 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表