性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA

[复制链接]
周大 发表于 2025-9-2 13:58:30 | 显示全部楼层 |阅读模式
通义实验室推出全新开源 GUI 智能体 Mobile-Agent-v3 及其核心模型 GUI-Owl,支持桌面、移动和 Web 全平台自动化操作。该系统基于云环境构建基础设施,结合“自我进化轨迹生产链路”实现任务自生成、自评估与模型迭代优化。GUI-Owl 凭借全栈式 GUI 能力,在 UI 定位、长任务规划与稳健推理方面表现优异,7B 模型超越同类开源模型,32B 模型挑战主流闭源模型。系统引入 TRPO 算法与 Replay Buffer 机制,解决强化学习中的信用分配问题,并通过多智能体蒸馏提升泛化能力,实测中可在第三方框架中即插即用。该成果显著降低了部署成本,推动开源 GUI Agent 向实用化迈进。
来源:https://mp.weixin.qq.com/s/LJCCB0wvwdFJG3rjK4an5g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 18:46 , Processed in 0.275216 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表