破解「长程智能体」RL训练难题，腾讯提出RLVMR框架，让7B模型「思考」比肩GPT-4o

周大发表于 2025-8-14 15:04:56

腾讯混元 AI 数字人团队提出 RLVMR 新框架，通过引入“元认知”机制，首次对智能体推理过程进行端到端强化学习。该方法通过奖励“优质思考”而非仅奖励“成功结果”，有效解决当前长程智能体在训练中“过程混乱、泛化弱”的问题。实验显示，RLVMR 训练的 7B 模型在 ALFWorld 和 ScienceWorld 基准任务中 L2 泛化成功率高达 83.6%，动作效率提升最高达 28.1%。研究还揭示了反思机制、推理习惯和分阶段训练对智能体成长的重要性，标志着智能体训练从“结果导向”迈向“过程导向”的新范式，为构建更高效、可解释的通用人工智能提供了新思路。
来源：https://mp.weixin.qq.com/s/KICyG1BKoDP7pvFZGRrL1A

页: [1]

靠浦ai课堂's Archiver

破解「长程智能体」RL训练难题，腾讯提出RLVMR框架，让7B模型「思考」比肩GPT-4o