OpenAI又双叒叕鸽了!没等来“草莓”发布,只敷衍发了评测集,网友:拿这来抢谷歌发布会风头?

[复制链接]
周大 发表于 2024-8-14 16:00:02 | 显示全部楼层 |阅读模式
OpenAI发布了一个经过人工验证的SWE-bench子集,旨在更准确地评估AI模型解决实际软件问题的能力。SWE-bench是一个流行的软件工程评估套件,用于评估大型语言模型能否解决来自GitHub的实际软件问题。此次发布的SWE-bench Verified子集解决了原有测试集的一些问题,提高了评估的准确性。市场原本期待的"草莓计划"并未在此发布中提及。
来源:https://tech.ifeng.com/c/8c0nq69WQAN

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 17:58 , Processed in 0.280232 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表