字节跳动Seed团队联合南大发布CriticLean框架,数学形式化准确率飙至84%
字节跳动Seed团队与南京大学联合推出CriticLean框架,显著提升数学命题自然语言向形式化代码(Lean 4)转换的准确率,从38%提升至84%。该框架引入强化学习训练的CriticLeanGPT模型,通过语义评估与迭代优化机制,系统性解决语义对齐、评价可靠性与数据质量难题。团队同步发布CriticLeanBench基准测试与FineLeanCorpus数据集,分别用于评估模型推理能力与提供高质量训练数据。实验显示,CriticLeanGPT在CriticLeanBench上的准确率达87%,true negative rate达85.6%,远超主流大模型。该项目论文与代码已开源,为自动化定理证明提供新范式。来源:https://mp.weixin.qq.com/s/i4REItGsF_oQvbabY9FhzQ
页:
[1]