文生图进入R1时刻：港中文MMLab发布T2I-R1

周大发表于 2025-5-9 15:12:20

香港中文大学MMLab博士姜东志提出了一种新型文本生成图像模型T2I-R1。该模型基于双层次CoT推理框架与强化学习，包含Semantic-CoT和Token-CoT两种推理方式。通过使用多个视觉专家模型集成作为奖励模型，确保了生成图像的质量评估可靠，并防止过拟合。实验结果表明，T2I-R1在T2I-CompBench和WISE基准测试中分别提升了13%和19%的性能，且在多个子任务上超越了之前的最先进的模型FLUX.1。
来源：https://mp.weixin.qq.com/s/wtmmWZzWYlSyHsQ_YFGiVA

页: [1]

靠浦ai课堂's Archiver

文生图进入R1时刻：港中文MMLab发布T2I-R1