DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移

[复制链接]
周大 发表于 2025-3-4 15:22:37 | 显示全部楼层 |阅读模式
在人工智能领域,引导大语言模型产出符合人类偏好的内容是研究热点。直接偏好优化(DPO)虽有简单易用等优势,但存在似然位移现象。针对此问题,研究人员提出DPO-Shift方法,在Bradley-Terry模型中为拒绝响应的奖励增设参数函数。理论与实验表明,该方法能在提升选定概率与维持奖励差距间权衡,有效缓解似然位移,且在下游任务测试中性能更优。华南理工大学研究生杨晞亮将在机器之心线上分享详细介绍此方法。
来源:https://mp.weixin.qq.com/s/pbT3ItE5YBnTjbFMYp12Kg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 05:53 , Processed in 0.265482 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表