LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升

[复制链接]
周大 发表于 2025-2-10 13:37:19 | 显示全部楼层 |阅读模式
研究人员开发了名为Satori的7B参数模型,该模型通过创新的自回归搜索方法和两阶段训练框架(小规模格式调优和大规模自我优化),实现了卓越的数学推理和跨领域任务表现。研究引入了行动-思维链(COAT)机制,让LLM能够执行多种元动作,并通过重启与探索(RAE)策略解决了长期决策与奖励稀疏的问题。实验结果表明,Satori不仅在数学推理方面表现出色,还具备强大的迁移能力和自我纠错能力。此外,RL训练使Satori能够在测试时进行更深入的思考并自动调整计算资源分配。最后,蒸馏方法为提升较弱基础模型的推理能力提供了新的高效途径。
来源:https://mp.weixin.qq.com/s/wHU8m7rq2B3fIC5nA_mG6Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 00:25 , Processed in 0.284279 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表