淘天推出Mobile-R1框架：3B模型任务成功率提升20%，突破移动Agent性能瓶颈

周大发表于 2025-7-20 13:49:25

淘天集团与点淘算法团队提出新型移动代理框架Mobile-R1，采用任务级奖励机制与三阶段训练流程（格式微调、动作级训练、任务级训练），有效提升模型在复杂移动环境中的适应能力。通过构建包含4,635条人工标注轨迹的高质量数据集，结合GRPO算法与任务级强化学习，Mobile-R1在多步骤任务中任务成功率达49.40，显著优于Qwen2.5-VL-32B和AgentCPM-8B等基准模型。实验表明，任务级训练增强了模型的泛化与纠错能力，显示出在动态环境中的潜力。团队计划开源相关资源，推动移动代理技术发展。
来源：https://mp.weixin.qq.com/s/YBpU3CFKVZXjk3ciTGwevA

页: [1]

靠浦ai课堂's Archiver

淘天推出Mobile-R1框架：3B模型任务成功率提升20%，突破移动Agent性能瓶颈