GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
上海人工智能实验室司南OpenCompass团队推出新的复杂数学评测集LiveMathBench和性能指标G-Pass@16T,以真实评估模型的数学推理能力。实验结果显示,大多数模型在G-Pass@16T指标下性能显著下降,即使是表现最好的o1-mini模型也下降了36.9%。研究发现,增大模型规模对推理能力提升有限,且模型的性能潜力和实际表现之间存在巨大差距。团队强调需要对模型的推理能力进行更严格的评估,以提升其在实际应用中的鲁棒性和稳定性。
来源:https://mp.weixin.qq.com/s/DkBjXj47f9HtCLShzB4c6g

学员登陆|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2024-12-23 12:28 , Processed in 0.273842 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表