8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式
普林斯顿大学与北京大学联合开发了ReasonFlux,这是一个基于层次化强化学习思想的多层次大语言模型推理框架。该框架通过构建结构化的思维模板库,将复杂的推理过程分解为一系列可复用的步骤,显著提升了推理效率和准确性。ReasonFlux只需500个思维模板库即可解决多种数学难题,且训练仅需8块NVIDIA A100 GPU。在多个数学推理基准测试中,ReasonFlux表现出色,如在MATH数据集上准确率达到91.2%。相较于传统方法,ReasonFlux通过缩小搜索空间和灵活调整推理策略提高了效率。其潜在应用还包括代码生成、医疗诊断等领域,展现了广阔的发展前景。来源:https://mp.weixin.qq.com/s/Vqif83WcgUpFrCJMHYxGmA
页:
[1]