8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式

[复制链接]
周大 发表于 2025-2-12 14:20:32 | 显示全部楼层 |阅读模式
普林斯顿大学与北京大学联合开发了ReasonFlux,这是一个基于层次化强化学习思想的多层次大语言模型推理框架。该框架通过构建结构化的思维模板库,将复杂的推理过程分解为一系列可复用的步骤,显著提升了推理效率和准确性。ReasonFlux只需500个思维模板库即可解决多种数学难题,且训练仅需8块NVIDIA A100 GPU。在多个数学推理基准测试中,ReasonFlux表现出色,如在MATH数据集上准确率达到91.2%。相较于传统方法,ReasonFlux通过缩小搜索空间和灵活调整推理策略提高了效率。其潜在应用还包括代码生成、医疗诊断等领域,展现了广阔的发展前景。
来源:https://mp.weixin.qq.com/s/Vqif83WcgUpFrCJMHYxGmA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-14 23:31 , Processed in 0.282720 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表