推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等
上海人工智能实验室等提出推理时偏好优化(TPO)方法,解决了大语言模型在生成回复时的偏好对齐问题。TPO通过在推理阶段与奖励模型交互,利用可解释的文本反馈迭代优化模型输出,无需重新训练。实验表明,TPO能显著提升未对齐模型的表现,甚至超越已对齐模型。该方法具备灵活性、适应性和高效性,计算成本仅为传统方法的0.01%,为大语言模型的偏好对齐提供了新的解决方案。来源:https://mp.weixin.qq.com/s/OzAHrVUK57kY9kwVQql4eg
页:
[1]