8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

周大发表于 2025-2-12 14:20:32

普林斯顿大学与北京大学联合开发了ReasonFlux，这是一个基于层次化强化学习思想的多层次大语言模型推理框架。该框架通过构建结构化的思维模板库，将复杂的推理过程分解为一系列可复用的步骤，显著提升了推理效率和准确性。ReasonFlux只需500个思维模板库即可解决多种数学难题，且训练仅需8块NVIDIA A100 GPU。在多个数学推理基准测试中，ReasonFlux表现出色，如在MATH数据集上准确率达到91.2%。相较于传统方法，ReasonFlux通过缩小搜索空间和灵活调整推理策略提高了效率。其潜在应用还包括代码生成、医疗诊断等领域，展现了广阔的发展前景。
来源：https://mp.weixin.qq.com/s/Vqif83WcgUpFrCJMHYxGmA

		自动登录	找回密码
密码			立即注册

课程导航

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式