伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开
DeepSWE作为首个完全开源的AI编程模型,凭借纯强化学习训练方式在SWE-Bench基准测试中达到59%准确率,刷新SOTA。该模型基于Qwen3-32B构建,依托rLLM框架与R2E-Gym环境,结合GRPO++算法及7项优化技术,避免依赖老师模型。团队还解决大规模训练挑战,引入TTS评估策略提升性能,推动AI编程向开放、高效方向发展。来源:https://mp.weixin.qq.com/s/Zld8JkrOdDcHveszNG8MAQ
页:
[1]