DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

周大发表于 2025-3-4 15:22:37

在人工智能领域，引导大语言模型产出符合人类偏好的内容是研究热点。直接偏好优化（DPO）虽有简单易用等优势，但存在似然位移现象。针对此问题，研究人员提出DPO-Shift方法，在Bradley-Terry模型中为拒绝响应的奖励增设参数函数。理论与实验表明，该方法能在提升选定概率与维持奖励差距间权衡，有效缓解似然位移，且在下游任务测试中性能更优。华南理工大学研究生杨晞亮将在机器之心线上分享详细介绍此方法。
来源：https://mp.weixin.qq.com/s/pbT3ItE5YBnTjbFMYp12Kg

页: [1]

靠浦ai课堂's Archiver

DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移