告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化

[复制链接]
周大 发表于 2025-9-5 14:52:40 | 显示全部楼层 |阅读模式
浙江大学等机构的研究团队提出了一种无需标注数据的自我监督强化学习方法——GUI-RCPO,用于提升GUI智能体在图形界面中的定位能力(GUI grounding)。该方法通过利用模型在多次预测中产生的区域一致性,提取“共识区域”并将其转化为自监督奖励信号,从而在无标签数据上实现模型的自我优化。实验表明,GUI-RCPO在多个模型和三个主流GUI定位基准上均取得显著提升,尤其在专业场景ScreenSpot-Pro中表现优异,且具备良好的泛化能力。研究还展示了其对误导性幻觉和偏差性幻觉的有效纠正能力,为构建高效、低数据依赖的GUI智能体提供了新路径。
来源:https://mp.weixin.qq.com/s/StVGmY7JuX2eL5_OXAiXJg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 16:25 , Processed in 0.291013 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表