淘天推出Mobile-R1框架:3B模型任务成功率提升20%,突破移动Agent性能瓶颈

[复制链接]
周大 发表于 2025-7-20 13:49:25 | 显示全部楼层 |阅读模式
淘天集团与点淘算法团队提出新型移动代理框架Mobile-R1,采用任务级奖励机制与三阶段训练流程(格式微调、动作级训练、任务级训练),有效提升模型在复杂移动环境中的适应能力。通过构建包含4,635条人工标注轨迹的高质量数据集,结合GRPO算法与任务级强化学习,Mobile-R1在多步骤任务中任务成功率达49.40,显著优于Qwen2.5-VL-32B和AgentCPM-8B等基准模型。实验表明,任务级训练增强了模型的泛化与纠错能力,显示出在动态环境中的潜力。团队计划开源相关资源,推动移动代理技术发展。
来源:https://mp.weixin.qq.com/s/YBpU3CFKVZXjk3ciTGwevA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 12:24 , Processed in 0.293630 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表