OpenAI 开源 SWE-Lancer 基准评估 AI 编码能力

[复制链接]
周大 发表于 2025-2-19 14:16:24 | 显示全部楼层 |阅读模式
OpenAI 推出并开源了 SWE-Lancer 基准,用于评估 AI 大模型的编码性能。该基准包含来自 Upwork 平台的 1400 多个软件工程任务,总价值达 100 万美元。任务分为独立工程任务和管理任务,平均完成时间超过 21 天。尽管当前前沿模型如 GPT-4 和 Claude 3.5 Sonnet 在某些方面表现出色,但它们仍无法解决大多数任务,尤其是在处理复杂问题时存在局限性。这表明 AI 模型尚不能完全取代人类工程师。
来源:https://mp.weixin.qq.com/s/LQTDVKFT4nzf9D4zvXq5DA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 14:13 , Processed in 0.283915 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表