SimPO:大型语言模型优化算法,提升性能与效率

[复制链接]
周大 发表于 2024-5-26 15:39:13 | 显示全部楼层 |阅读模式
弗吉尼亚大学和普林斯顿大学的研究者们为优化大型语言模型,开发了一种名为SimPO的新算法,该算法通过直接偏好优化解决了传统方法中奖励函数与生成指标不一致的问题。SimPO在无需参考模型的情况下,通过长度归一化和目标奖励差额提高了性能,实验结果显示,它在多项基准测试中超越了其他方法,包括在AlpacaEval 2和Arena-Hard基准上的优秀表现,证明了其在效率和生成质量上的优势。
来源:https://mp.weixin.qq.com/s/wJKiDU8t2RW2DpnqYR1h8w

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-2 18:25 , Processed in 0.295959 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表