AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
UC Berkeley团队提出一种名为INTUITOR的新训练方法,通过优化大模型自身的置信度作为内在奖励信号,使其无需外部监督即可学会复杂推理。该方法在数学任务中无需标准答案即可提升性能,并在代码生成任务中表现优于传统方法GRPO。实验显示,经过INTUITOR微调的小模型展现出类似DeepSeek-R1的长思维链推理能力,且在多任务泛化方面表现出色。此外,INTUITOR有效降低了“奖励黑客”风险,通过在线学习避免了模型作弊行为。尽管当前实验受限于计算资源,但研究展示了该方法在未来大规模应用中的潜力。来源:https://mp.weixin.qq.com/s/lCjfKhFfOdTtC6uEvhJG4w
页:
[1]