周大 发表于 2025-6-6 13:37:47

腾讯上海交大团队推出12.1万高难度数学题DeepTheorem,显著提升AI定理证明性能

DeepTheorem是由腾讯AI Lab与上海交大联合推出的首个自然语言数学定理证明框架,包含12.1万道IMO级难度题目,规模与难度领先现有数据集。通过强化学习训练,DeepTheorem-7B模型性能超越多个开源及商业模型(如Claude3.7)。该框架提供三个测试集(FIMO、HMMT、PutnamBench)及全面评价指标,实验表明其在同规模模型中达SOTA水平,为AI数学推理开辟新方向。
来源:https://mp.weixin.qq.com/s/13CZeHrN-ZMI3hyhEm_Xkg
页: [1]
查看完整版本: 腾讯上海交大团队推出12.1万高难度数学题DeepTheorem,显著提升AI定理证明性能