周大 发表于 4 天前

边学边练,推理觉醒:LUFFY让强化学习即学即用!

上海AI实验室联合多所高校提出全新强化学习框架LUFFY,融合模仿学习与强化学习的优势,解决AI模型“只学不练”或“只练不学”的问题。实验表明,LUFFY在数学推理任务中性能提升显著,平均准确率高达49.6%,并展现出更强的泛化能力。通过混合策略训练与策略塑形机制,LUFFY实现了高效学习与自主探索的平衡,未来有望应用于代码生成、科学问答等领域。
来源:https://mp.weixin.qq.com/s/OtngauQEPzPbvDjAoQfMmA
页: [1]
查看完整版本: 边学边练,推理觉醒:LUFFY让强化学习即学即用!