GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

周大发表于 2024-12-19 14:48:16

上海人工智能实验室司南OpenCompass团队推出新的复杂数学评测集LiveMathBench和性能指标G-Pass@16T，以真实评估模型的数学推理能力。实验结果显示，大多数模型在G-Pass@16T指标下性能显著下降，即使是表现最好的o1-mini模型也下降了36.9%。研究发现，增大模型规模对推理能力提升有限，且模型的性能潜力和实际表现之间存在巨大差距。团队强调需要对模型的推理能力进行更严格的评估，以提升其在实际应用中的鲁棒性和稳定性。
来源：https://mp.weixin.qq.com/s/DkBjXj47f9HtCLShzB4c6g

页: [1]

靠浦ai课堂's Archiver

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了