普林斯顿研究揭示奖励模型优化新视角

[复制链接]
周大 发表于 2025-3-24 14:41:18 | 显示全部楼层 |阅读模式
普林斯顿大学研究团队发现,在RLHF中,仅靠奖励模型的准确度无法全面衡量其质量。即使奖励模型非常准确,若其奖励方差较低,可能导致优化过程缓慢。研究表明,更准确的奖励模型未必是更好的教师,还需考虑奖励方差对优化的影响。实验结果表明,针对不同初始策略,采用不同奖励模型能取得更好效果。
来源:https://mp.weixin.qq.com/s/mNE_S1qpx5-HOLZGpWPXrQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 07:55 , Processed in 0.278099 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表