与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题

[复制链接]
周大 发表于 2024-10-26 15:02:38 | 显示全部楼层 |阅读模式
武汉大学等机构在ICML 2024上提出了一种名为TDPO-R的强化学习算法,旨在缓解扩散模型对齐中的奖励过优化问题。TDPO-R通过引入时间差分奖励机制和神经元重置机制,为扩散模型的每一步生成过程提供细粒度的反馈,从而提高模型的泛化能力和生成质量。研究表明,TDPO-R在优化特定目标时,展现出更强的跨奖励泛化能力,有效避免了模型在单一目标上的过度拟合,确保生成的图像既具有视觉自然感又保留了风格多样性。
来源:https://mp.weixin.qq.com/s/MYSlYsFtlvZAmusEvrRsjA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 23:34 , Processed in 0.275072 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表