破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o

[复制链接]
周大 发表于 2025-8-14 15:04:56 | 显示全部楼层 |阅读模式
腾讯混元 AI 数字人团队提出 RLVMR 新框架,通过引入“元认知”机制,首次对智能体推理过程进行端到端强化学习。该方法通过奖励“优质思考”而非仅奖励“成功结果”,有效解决当前长程智能体在训练中“过程混乱、泛化弱”的问题。实验显示,RLVMR 训练的 7B 模型在 ALFWorld 和 ScienceWorld 基准任务中 L2 泛化成功率高达 83.6%,动作效率提升最高达 28.1%。研究还揭示了反思机制、推理习惯和分阶段训练对智能体成长的重要性,标志着智能体训练从“结果导向”迈向“过程导向”的新范式,为构建更高效、可解释的通用人工智能提供了新思路。
来源:https://mp.weixin.qq.com/s/KICyG1BKoDP7pvFZGRrL1A

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 06:59 , Processed in 0.296852 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表