伯克利最强代码Agent屠榜SWE-Bench!用Scaling RL打造,配方全公开

[复制链接]
周大 发表于 2025-7-7 13:38:42 | 显示全部楼层 |阅读模式
DeepSWE作为首个完全开源的AI编程模型,凭借纯强化学习训练方式在SWE-Bench基准测试中达到59%准确率,刷新SOTA。该模型基于Qwen3-32B构建,依托rLLM框架与R2E-Gym环境,结合GRPO++算法及7项优化技术,避免依赖老师模型。团队还解决大规模训练挑战,引入TTS评估策略提升性能,推动AI编程向开放、高效方向发展。
来源:https://mp.weixin.qq.com/s/Zld8JkrOdDcHveszNG8MAQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 09:15 , Processed in 0.296720 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表