监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

周大发表于 2025-6-22 14:27:33

清华大学联合英伟达和斯坦福提出的NFT算法，通过构建“隐式负向模型”，利用负向数据优化监督学习，成功弥合了监督学习与强化学习之间的性能差距。实验显示，NFT损失函数梯度与GRPO在On-Policy条件下等价，揭示两者可能存在的深层联系。该算法在大模型中表现出更强的优势，尤其在数学任务上成绩突出，且无需依赖外部数据。此外，NFT还能在保持性能的同时增加模型熵，鼓励更多探索，为机器学习理论提供了新视角。
来源：https://mp.weixin.qq.com/s/E9qGWKCCg-xx0XVl5g7ubA

页: [1]

靠浦ai课堂's Archiver

监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力