边学边练,推理觉醒:LUFFY让强化学习即学即用!

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
上海AI实验室联合多所高校提出全新强化学习框架LUFFY,融合模仿学习与强化学习的优势,解决AI模型“只学不练”或“只练不学”的问题。实验表明,LUFFY在数学推理任务中性能提升显著,平均准确率高达49.6%,并展现出更强的泛化能力。通过混合策略训练与策略塑形机制,LUFFY实现了高效学习与自主探索的平衡,未来有望应用于代码生成、科学问答等领域。
来源:https://mp.weixin.qq.com/s/OtngauQEPzPbvDjAoQfMmA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 07:05 , Processed in 0.256074 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表