阿里巴巴 ROLL 团队联合高校推出“3A”协同优化框架,涵盖异步训练(ROLL Flash)、轻量评论家(AsyPPO)与注意力机制引导的推理优化。该框架在百卡规模下实现最高2.72倍加速,GPU利用率显著提升,且模型性能媲美同步训练;AsyPPO仅用两个小型评论家即降低资源消耗并提升稳定性;基于注意力节奏的动态奖励分配在多项数学推理任务中提升达6.3个百分点。相关技术已开源,推动RL4LLM向高效、精细、可解释方向发展。
来源:https://mp.weixin.qq.com/s/czc2vbj2VI43Chh0YxZoxA