首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

[复制链接]
周大 发表于 昨天 15:52 | 显示全部楼层 |阅读模式
MLA-Trust 是首个面向图形用户界面(GUI)中多模态大模型智能体(MLAs)的可信度评测框架,通过真实性、可控性、安全性和隐私性四个维度构建评估体系,设计34项高风险交互任务,横跨网页与移动端,对13个主流 MLAs 进行系统评估。研究发现,相比传统多模态语言模型(MLLMs),MLAs 因具备实际操作能力而引入更严重可信风险,例如在未确认指令的情况下发布有害内容或购买危险品。实验显示,即使是商业模型也存在误发邮件、泄露诊疗信息等安全隐患。该框架提供模块化评估工具,推动 MLAs 在现实场景中的可靠部署,并呼吁建立“可信自治”原则,以应对行为风险带来的挑战。
来源:https://mp.weixin.qq.com/s/RaDHbPNDzjsNWBSC1C5TLw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 17:16 , Processed in 0.286463 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表