周大 发表于 2024-9-27 15:12:52

完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%

Google DeepMind提出SCoRe方法,通过在线多轮强化学习提升大型语言模型自我修正能力。在MATH和HumanEval基准测试中,SCoRe分别将自我修正性能提高15.6%和9.1%,显著优于其他方法。SCoRe仅需训练一个模型,无需额外监督信号即可实现自我纠正。
来源:https://mp.weixin.qq.com/s/r9ggNLjai-CPKFDcV87IpQ
页: [1]
查看完整版本: 完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%