完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%
Google DeepMind提出SCoRe方法,通过在线多轮强化学习提升大型语言模型自我修正能力。在MATH和HumanEval基准测试中,SCoRe分别将自我修正性能提高15.6%和9.1%,显著优于其他方法。SCoRe仅需训练一个模型,无需额外监督信号即可实现自我纠正。来源:https://mp.weixin.qq.com/s/r9ggNLjai-CPKFDcV87IpQ
页:
[1]