首个GUI多模态大模型智能体可信评测框架+基准：MLA-Trust

周大发表于 2025-7-4 15:52:24

MLA-Trust 是首个面向图形用户界面（GUI）中多模态大模型智能体（MLAs）的可信度评测框架，通过真实性、可控性、安全性和隐私性四个维度构建评估体系，设计34项高风险交互任务，横跨网页与移动端，对13个主流 MLAs 进行系统评估。研究发现，相比传统多模态语言模型（MLLMs），MLAs 因具备实际操作能力而引入更严重可信风险，例如在未确认指令的情况下发布有害内容或购买危险品。实验显示，即使是商业模型也存在误发邮件、泄露诊疗信息等安全隐患。该框架提供模块化评估工具，推动 MLAs 在现实场景中的可靠部署，并呼吁建立“可信自治”原则，以应对行为风险带来的挑战。
来源：https://mp.weixin.qq.com/s/RaDHbPNDzjsNWBSC1C5TLw

页: [1]

靠浦ai课堂's Archiver

首个GUI多模态大模型智能体可信评测框架+基准：MLA-Trust