推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

[复制链接]
周大 发表于 2025-2-10 13:48:56 | 显示全部楼层 |阅读模式
上海人工智能实验室等提出推理时偏好优化(TPO)方法,解决了大语言模型在生成回复时的偏好对齐问题。TPO通过在推理阶段与奖励模型交互,利用可解释的文本反馈迭代优化模型输出,无需重新训练。实验表明,TPO能显著提升未对齐模型的表现,甚至超越已对齐模型。该方法具备灵活性、适应性和高效性,计算成本仅为传统方法的0.01%,为大语言模型的偏好对齐提供了新的解决方案。
来源:https://mp.weixin.qq.com/s/OzAHrVUK57kY9kwVQql4eg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 23:50 , Processed in 0.281769 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表