周大 发表于 2025-3-4 15:22:37

DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移

在人工智能领域,引导大语言模型产出符合人类偏好的内容是研究热点。直接偏好优化(DPO)虽有简单易用等优势,但存在似然位移现象。针对此问题,研究人员提出DPO-Shift方法,在Bradley-Terry模型中为拒绝响应的奖励增设参数函数。理论与实验表明,该方法能在提升选定概率与维持奖励差距间权衡,有效缓解似然位移,且在下游任务测试中性能更优。华南理工大学研究生杨晞亮将在机器之心线上分享详细介绍此方法。
来源:https://mp.weixin.qq.com/s/pbT3ItE5YBnTjbFMYp12Kg
页: [1]
查看完整版本: DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移