昆仑万维发布Skywork-SWE-32B代码智能体,修复GitHub代码bug准确率达47%
昆仑万维推出自主代码智能体基座模型 Skywork-SWE,参数量达 32B,专为复杂软件工程任务设计。该模型基于业内最大规模、可验证的 SWE 数据集训练而成,包含 10,169 个真实代码问题和 8,209 条多轮交互轨迹,每条任务均经过 Docker 环境复现与单元测试验证。Skywork-SWE-32B 在 SWE-bench Verified 基准上取得 47% 准确度,显著超越现有模型,并通过实验揭示了 LLM 软件工程能力的 Scaling Law,验证了数据规模对性能提升的重要性。此外,昆仑万维计划将数据集扩展至更多编程语言,并支持在线强化学习研究。作为行业标杆,Skywork-SWE 标志着高质量任务型数据驱动智能体训练范式的兴起,推动软件工程智能化发展。来源:https://mp.weixin.qq.com/s/RTLZAir7R-o5fp0CLL-cJA
页:
[1]