OpenAI又双叒叕鸽了！没等来“草莓”发布，只敷衍发了评测集，网友：拿这来抢谷歌发布会风头？

周大发表于 2024-8-14 16:00:02

OpenAI发布了一个经过人工验证的SWE-bench子集，旨在更准确地评估AI模型解决实际软件问题的能力。SWE-bench是一个流行的软件工程评估套件，用于评估大型语言模型能否解决来自GitHub的实际软件问题。此次发布的SWE-bench Verified子集解决了原有测试集的一些问题，提高了评估的准确性。市场原本期待的"草莓计划"并未在此发布中提及。
来源：https://tech.ifeng.com/c/8c0nq69WQAN

页: [1]

靠浦ai课堂's Archiver

OpenAI又双叒叕鸽了！没等来“草莓”发布，只敷衍发了评测集，网友：拿这来抢谷歌发布会风头？