周大 发表于 2025-8-14 15:04:56

破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o

腾讯混元 AI 数字人团队提出 RLVMR 新框架,通过引入“元认知”机制,首次对智能体推理过程进行端到端强化学习。该方法通过奖励“优质思考”而非仅奖励“成功结果”,有效解决当前长程智能体在训练中“过程混乱、泛化弱”的问题。实验显示,RLVMR 训练的 7B 模型在 ALFWorld 和 ScienceWorld 基准任务中 L2 泛化成功率高达 83.6%,动作效率提升最高达 28.1%。研究还揭示了反思机制、推理习惯和分阶段训练对智能体成长的重要性,标志着智能体训练从“结果导向”迈向“过程导向”的新范式,为构建更高效、可解释的通用人工智能提供了新思路。
来源:https://mp.weixin.qq.com/s/KICyG1BKoDP7pvFZGRrL1A
页: [1]
查看完整版本: 破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o