周大 发表于 2025-2-10 13:37:19

LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升

研究人员开发了名为Satori的7B参数模型,该模型通过创新的自回归搜索方法和两阶段训练框架(小规模格式调优和大规模自我优化),实现了卓越的数学推理和跨领域任务表现。研究引入了行动-思维链(COAT)机制,让LLM能够执行多种元动作,并通过重启与探索(RAE)策略解决了长期决策与奖励稀疏的问题。实验结果表明,Satori不仅在数学推理方面表现出色,还具备强大的迁移能力和自我纠错能力。此外,RL训练使Satori能够在测试时进行更深入的思考并自动调整计算资源分配。最后,蒸馏方法为提升较弱基础模型的推理能力提供了新的高效途径。
来源:https://mp.weixin.qq.com/s/wHU8m7rq2B3fIC5nA_mG6Q
页: [1]
查看完整版本: LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升