多模态生成框架新SOTA：文本+空间+图像随意组合，20W+数据开源，复旦腾讯优图出品

周大发表于 2025-4-16 14:51:37

复旦大学与腾讯优图实验室等机构的研究人员提出了基于DiT的多条件可控生成框架UniCombine。该框架通过引入Conditional MMDiT注意力机制和LoRA模块，能够灵活处理文本提示、空间映射和主体图像等多种条件组合，并提供无训练和基于训练两种版本。此外，团队还构建并开源了首个针对多条件生成任务的数据集SubjectSpatial200K。大量实验表明，UniCombine在主体插入、主体-空间等任务上均达到SOTA性能，为可控生成领域的发展提供了重要支持。
来源：https://mp.weixin.qq.com/s/6q3BUHVC6NmfiSxJQ0ID8A

页: [1]

靠浦ai课堂's Archiver

多模态生成框架新SOTA：文本+空间+图像随意组合，20W+数据开源，复旦腾讯优图出品