OpenAI又双叒叕鸽了!没等来“草莓”发布,只敷衍发了评测集,网友:拿这来抢谷歌发布会风头?
OpenAI发布了一个经过人工验证的SWE-bench子集,旨在更准确地评估AI模型解决实际软件问题的能力。SWE-bench是一个流行的软件工程评估套件,用于评估大型语言模型能否解决来自GitHub的实际软件问题。此次发布的SWE-bench Verified子集解决了原有测试集的一些问题,提高了评估的准确性。市场原本期待的"草莓计划"并未在此发布中提及。来源:https://tech.ifeng.com/c/8c0nq69WQAN
页:
[1]