完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%

[复制链接]
周大 发表于 2024-9-27 15:12:52 | 显示全部楼层 |阅读模式
Google DeepMind提出SCoRe方法,通过在线多轮强化学习提升大型语言模型自我修正能力。在MATH和HumanEval基准测试中,SCoRe分别将自我修正性能提高15.6%和9.1%,显著优于其他方法。SCoRe仅需训练一个模型,无需额外监督信号即可实现自我纠正。
来源:https://mp.weixin.qq.com/s/r9ggNLjai-CPKFDcV87IpQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 09:26 , Processed in 0.289986 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表