SimPO:大型语言模型优化算法,提升性能与效率
弗吉尼亚大学和普林斯顿大学的研究者们为优化大型语言模型,开发了一种名为SimPO的新算法,该算法通过直接偏好优化解决了传统方法中奖励函数与生成指标不一致的问题。SimPO在无需参考模型的情况下,通过长度归一化和目标奖励差额提高了性能,实验结果显示,它在多项基准测试中超越了其他方法,包括在AlpacaEval 2和Arena-Hard基准上的优秀表现,证明了其在效率和生成质量上的优势。来源:https://mp.weixin.qq.com/s/wJKiDU8t2RW2DpnqYR1h8w
页:
[1]