西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
西北大学与Google、DeepMind团队提出了贝叶斯自适应强化学习(BARL)方法,挑战传统强化学习在反思行为上的局限。研究发现,BARL在合成任务中能够适时切换策略,避免固守无效假设;在数学推理任务中,不仅准确率更高,还显著减少了所需token数量。值得注意的是,反思次数并非性能决定因素,BARL通过优化后验分布下的期望累积回报,实现更有针对性的反思行为,提升了解题效率和效果。这一方法为未来强化学习模型的设计提供了新的思路。来源:https://mp.weixin.qq.com/s/9EC2LMLtA3ngD7CziAIVsw
页:
[1]