首个开源实现100%可复现的稳定RL训练框架来了！2次结果完全重合

周大发表于 2025-9-27 14:32:02

SGLang与slime团队合作推出支持完全可复现推理的开源框架，在Qwen3-8B上实现两次运行结果完美重合。该方案基于Thinking Machines Lab提出的批次不变性原理，通过定制注意力机制和采样逻辑，在保持分块预填充、CUDA Graph等功能的同时，实现确定性推理。实验表明，其在FlashInfer和FlashAttention 3后端平均性能下降仅34.35%，显著优于此前61.5%的降幅。支持per-request采样种子，可在非贪婪模式下确保一致性。目前建议用于调试与RL训练复现，团队正致力于优化性能、支持MoE模型及更多后端。
来源：https://mp.weixin.qq.com/s/V2ThosAz32t-Bv4_8N4FCQ

		自动登录	找回密码
密码			立即注册

课程导航

首个开源实现100%可复现的稳定RL训练框架来了！2次结果完全重合