周大 发表于 2025-7-20 13:49:25

淘天推出Mobile-R1框架:3B模型任务成功率提升20%,突破移动Agent性能瓶颈

淘天集团与点淘算法团队提出新型移动代理框架Mobile-R1,采用任务级奖励机制与三阶段训练流程(格式微调、动作级训练、任务级训练),有效提升模型在复杂移动环境中的适应能力。通过构建包含4,635条人工标注轨迹的高质量数据集,结合GRPO算法与任务级强化学习,Mobile-R1在多步骤任务中任务成功率达49.40,显著优于Qwen2.5-VL-32B和AgentCPM-8B等基准模型。实验表明,任务级训练增强了模型的泛化与纠错能力,显示出在动态环境中的潜力。团队计划开源相关资源,推动移动代理技术发展。
来源:https://mp.weixin.qq.com/s/YBpU3CFKVZXjk3ciTGwevA
页: [1]
查看完整版本: 淘天推出Mobile-R1框架:3B模型任务成功率提升20%,突破移动Agent性能瓶颈