告别海量标注!浙大团队提出GUI-RCPO,让GUI定位在无标签数据上自我进化
浙江大学等机构的研究团队提出了一种无需标注数据的自我监督强化学习方法——GUI-RCPO,用于提升GUI智能体在图形界面中的定位能力(GUI grounding)。该方法通过利用模型在多次预测中产生的区域一致性,提取“共识区域”并将其转化为自监督奖励信号,从而在无标签数据上实现模型的自我优化。实验表明,GUI-RCPO在多个模型和三个主流GUI定位基准上均取得显著提升,尤其在专业场景ScreenSpot-Pro中表现优异,且具备良好的泛化能力。研究还展示了其对误导性幻觉和偏差性幻觉的有效纠正能力,为构建高效、低数据依赖的GUI智能体提供了新路径。来源:https://mp.weixin.qq.com/s/StVGmY7JuX2eL5_OXAiXJg
页:
[1]