与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
武汉大学等机构在ICML 2024上提出了一种名为TDPO-R的强化学习算法,旨在缓解扩散模型对齐中的奖励过优化问题。TDPO-R通过引入时间差分奖励机制和神经元重置机制,为扩散模型的每一步生成过程提供细粒度的反馈,从而提高模型的泛化能力和生成质量。研究表明,TDPO-R在优化特定目标时,展现出更强的跨奖励泛化能力,有效避免了模型在单一目标上的过度拟合,确保生成的图像既具有视觉自然感又保留了风格多样性。来源:https://mp.weixin.qq.com/s/MYSlYsFtlvZAmusEvrRsjA
页:
[1]