推理时也能做偏好优化，无需额外重训练，来自上海AI Lab港中文等

周大发表于 2025-2-10 13:48:56

上海人工智能实验室等提出推理时偏好优化（TPO）方法，解决了大语言模型在生成回复时的偏好对齐问题。TPO通过在推理阶段与奖励模型交互，利用可解释的文本反馈迭代优化模型输出，无需重新训练。实验表明，TPO能显著提升未对齐模型的表现，甚至超越已对齐模型。该方法具备灵活性、适应性和高效性，计算成本仅为传统方法的0.01%，为大语言模型的偏好对齐提供了新的解决方案。
来源：https://mp.weixin.qq.com/s/OzAHrVUK57kY9kwVQql4eg

		自动登录	找回密码
密码			立即注册

课程导航

推理时也能做偏好优化，无需额外重训练，来自上海AI Lab港中文等