西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

周大发表于 2025-6-2 15:16:56

西北大学与Google、DeepMind团队提出了贝叶斯自适应强化学习（BARL）方法，挑战传统强化学习在反思行为上的局限。研究发现，BARL在合成任务中能够适时切换策略，避免固守无效假设；在数学推理任务中，不仅准确率更高，还显著减少了所需token数量。值得注意的是，反思次数并非性能决定因素，BARL通过优化后验分布下的期望累积回报，实现更有针对性的反思行为，提升了解题效率和效果。这一方法为未来强化学习模型的设计提供了新的思路。
来源：https://mp.weixin.qq.com/s/9EC2LMLtA3ngD7CziAIVsw

页: [1]

靠浦ai课堂's Archiver

西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升