文生图进入R1时刻:港中文MMLab发布T2I-R1
香港中文大学MMLab博士姜东志提出了一种新型文本生成图像模型T2I-R1。该模型基于双层次CoT推理框架与强化学习,包含Semantic-CoT和Token-CoT两种推理方式。通过使用多个视觉专家模型集成作为奖励模型,确保了生成图像的质量评估可靠,并防止过拟合。实验结果表明,T2I-R1在T2I-CompBench和WISE基准测试中分别提升了13%和19%的性能,且在多个子任务上超越了之前的最先进的模型FLUX.1。来源:https://mp.weixin.qq.com/s/wtmmWZzWYlSyHsQ_YFGiVA
页:
[1]