周大 发表于 2025-5-9 15:12:20

文生图进入R1时刻:港中文MMLab发布T2I-R1

香港中文大学MMLab博士姜东志提出了一种新型文本生成图像模型T2I-R1。该模型基于双层次CoT推理框架与强化学习,包含Semantic-CoT和Token-CoT两种推理方式。通过使用多个视觉专家模型集成作为奖励模型,确保了生成图像的质量评估可靠,并防止过拟合。实验结果表明,T2I-R1在T2I-CompBench和WISE基准测试中分别提升了13%和19%的性能,且在多个子任务上超越了之前的最先进的模型FLUX.1。
来源:https://mp.weixin.qq.com/s/wtmmWZzWYlSyHsQ_YFGiVA
页: [1]
查看完整版本: 文生图进入R1时刻:港中文MMLab发布T2I-R1