周大 发表于 2024-12-19 14:48:16

GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了

上海人工智能实验室司南OpenCompass团队推出新的复杂数学评测集LiveMathBench和性能指标G-Pass@16T,以真实评估模型的数学推理能力。实验结果显示,大多数模型在G-Pass@16T指标下性能显著下降,即使是表现最好的o1-mini模型也下降了36.9%。研究发现,增大模型规模对推理能力提升有限,且模型的性能潜力和实际表现之间存在巨大差距。团队强调需要对模型的推理能力进行更严格的评估,以提升其在实际应用中的鲁棒性和稳定性。
来源:https://mp.weixin.qq.com/s/DkBjXj47f9HtCLShzB4c6g
页: [1]
查看完整版本: GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了