伯克利最强代码Agent屠榜SWE-Bench！用Scaling RL打造，配方全公开

周大发表于 2025-7-7 13:38:42

DeepSWE作为首个完全开源的AI编程模型，凭借纯强化学习训练方式在SWE-Bench基准测试中达到59%准确率，刷新SOTA。该模型基于Qwen3-32B构建，依托rLLM框架与R2E-Gym环境，结合GRPO++算法及7项优化技术，避免依赖老师模型。团队还解决大规模训练挑战，引入TTS评估策略提升性能，推动AI编程向开放、高效方向发展。
来源：https://mp.weixin.qq.com/s/Zld8JkrOdDcHveszNG8MAQ

页: [1]

靠浦ai课堂's Archiver

伯克利最强代码Agent屠榜SWE-Bench！用Scaling RL打造，配方全公开