LLM实现自回归搜索！MIT哈佛等提出「行动思维链」COAT，推理能力大提升

周大发表于 2025-2-10 13:37:19

研究人员开发了名为Satori的7B参数模型，该模型通过创新的自回归搜索方法和两阶段训练框架（小规模格式调优和大规模自我优化），实现了卓越的数学推理和跨领域任务表现。研究引入了行动-思维链（COAT）机制，让LLM能够执行多种元动作，并通过重启与探索（RAE）策略解决了长期决策与奖励稀疏的问题。实验结果表明，Satori不仅在数学推理方面表现出色，还具备强大的迁移能力和自我纠错能力。此外，RL训练使Satori能够在测试时进行更深入的思考并自动调整计算资源分配。最后，蒸馏方法为提升较弱基础模型的推理能力提供了新的高效途径。
来源：https://mp.weixin.qq.com/s/wHU8m7rq2B3fIC5nA_mG6Q

页: [1]

靠浦ai课堂's Archiver

LLM实现自回归搜索！MIT哈佛等提出「行动思维链」COAT，推理能力大提升