完全使用「自生成数据」实现LLM自我纠正，DeepMind新突破SCoRe：纠正性能提升15.9%

周大发表于 2024-9-27 15:12:52

Google DeepMind提出SCoRe方法，通过在线多轮强化学习提升大型语言模型自我修正能力。在MATH和HumanEval基准测试中，SCoRe分别将自我修正性能提高15.6%和9.1%，显著优于其他方法。SCoRe仅需训练一个模型，无需额外监督信号即可实现自我纠正。
来源：https://mp.weixin.qq.com/s/r9ggNLjai-CPKFDcV87IpQ

		自动登录	找回密码
密码			立即注册

课程导航

完全使用「自生成数据」实现LLM自我纠正，DeepMind新突破SCoRe：纠正性能提升15.9%