普林斯顿研究揭示奖励模型优化新视角

周大发表于 2025-3-24 14:41:18

普林斯顿大学研究团队发现，在RLHF中，仅靠奖励模型的准确度无法全面衡量其质量。即使奖励模型非常准确，若其奖励方差较低，可能导致优化过程缓慢。研究表明，更准确的奖励模型未必是更好的教师，还需考虑奖励方差对优化的影响。实验结果表明，针对不同初始策略，采用不同奖励模型能取得更好效果。
来源：https://mp.weixin.qq.com/s/mNE_S1qpx5-HOLZGpWPXrQ

页: [1]

靠浦ai课堂's Archiver

普林斯顿研究揭示奖励模型优化新视角