边学边练，推理觉醒：LUFFY让强化学习即学即用！

周大发表于 2025-5-5 14:54:50

上海AI实验室联合多所高校提出全新强化学习框架LUFFY，融合模仿学习与强化学习的优势，解决AI模型“只学不练”或“只练不学”的问题。实验表明，LUFFY在数学推理任务中性能提升显著，平均准确率高达49.6%，并展现出更强的泛化能力。通过混合策略训练与策略塑形机制，LUFFY实现了高效学习与自主探索的平衡，未来有望应用于代码生成、科学问答等领域。
来源：https://mp.weixin.qq.com/s/OtngauQEPzPbvDjAoQfMmA

页: [1]

靠浦ai课堂's Archiver

边学边练，推理觉醒：LUFFY让强化学习即学即用！