监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力

[复制链接]
周大 发表于 前天 14:27 | 显示全部楼层 |阅读模式
清华大学联合英伟达和斯坦福提出的NFT算法,通过构建“隐式负向模型”,利用负向数据优化监督学习,成功弥合了监督学习与强化学习之间的性能差距。实验显示,NFT损失函数梯度与GRPO在On-Policy条件下等价,揭示两者可能存在的深层联系。该算法在大模型中表现出更强的优势,尤其在数学任务上成绩突出,且无需依赖外部数据。此外,NFT还能在保持性能的同时增加模型熵,鼓励更多探索,为机器学习理论提供了新视角。
来源:https://mp.weixin.qq.com/s/E9qGWKCCg-xx0XVl5g7ubA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-24 05:43 , Processed in 0.326833 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表