14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1
微软研究院提出rStar2-Agent,通过主动式强化学习显著提升LLM推理能力。该方法训练出14B参数模型rStar2-Agent-14B,在数学推理等任务中表现优于671B的DeepSeek-R1。研究使用Python编程工具作为交互环境,应对环境噪声、训练效率和基础设施三大挑战。三大创新包括高效基础设施(支持45K并发调用,反馈延迟0.3秒)、GRPO-RoC策略(提升训练稳定性)及高效训练流程(仅需510步即达前沿水平)。模型在AIME24上准确率达80.6%,并在多个科学与通用推理任务中展现优异泛化能力,推动LLM向更智能推理方向发展。来源:https://mp.weixin.qq.com/s/8yB2MJ3Q9CD8maQjiiLk9g
页:
[1]