监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力
清华大学联合英伟达和斯坦福提出的NFT算法,通过构建“隐式负向模型”,利用负向数据优化监督学习,成功弥合了监督学习与强化学习之间的性能差距。实验显示,NFT损失函数梯度与GRPO在On-Policy条件下等价,揭示两者可能存在的深层联系。该算法在大模型中表现出更强的优势,尤其在数学任务上成绩突出,且无需依赖外部数据。此外,NFT还能在保持性能的同时增加模型熵,鼓励更多探索,为机器学习理论提供了新视角。来源:https://mp.weixin.qq.com/s/E9qGWKCCg-xx0XVl5g7ubA
页:
[1]