3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化

周大发表于 2025-11-10 14:11:03

阿里巴巴 ROLL 团队联合高校推出“3A”协同优化框架，涵盖异步训练（ROLL Flash）、轻量评论家（AsyPPO）与注意力机制引导的推理优化。该框架在百卡规模下实现最高2.72倍加速，GPU利用率显著提升，且模型性能媲美同步训练；AsyPPO仅用两个小型评论家即降低资源消耗并提升稳定性；基于注意力节奏的动态奖励分配在多项数学推理任务中提升达6.3个百分点。相关技术已开源，推动RL4LLM向高效、精细、可解释方向发展。
来源：https://mp.weixin.qq.com/s/czc2vbj2VI43Chh0YxZoxA

		自动登录	找回密码
密码			立即注册

课程导航

3A大作！阿里ROLL团队从基建->算法->机理，推动RL4LLM全栈协同优化