周大 发表于 7 天前

浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误

浙江大学与香港理工大学合作提出 InfiGUI-R1 和 Actor2Reasoner 框架,致力于将 GUI 智能体从「反应式行动者」升级为「深思熟虑的推理者」。该框架通过两阶段训练方法,结合空间推理蒸馏技术和强化学习,显著提升了智能体的规划和反思能力。基于此框架的 InfiGUI-R1-3B 模型(30 亿参数)在 GUI 元素定位和复杂任务执行等基准测试中表现出色,分别达到 87.5% 和 92.1%/71.1% 的成功率,性能优于甚至比肩更大规模模型。这一成果为开发更智能、可靠的 GUI 自动化工具提供了新方向。
来源:https://mp.weixin.qq.com/s/KafgV8WxsV02fSNbUxxozQ
页: [1]
查看完整版本: 浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误