多模态生成框架新SOTA:文本+空间+图像随意组合,20W+数据开源,复旦腾讯优图出品

[复制链接]
周大 发表于 2025-4-16 14:51:37 | 显示全部楼层 |阅读模式
复旦大学与腾讯优图实验室等机构的研究人员提出了基于DiT的多条件可控生成框架UniCombine。该框架通过引入Conditional MMDiT注意力机制和LoRA模块,能够灵活处理文本提示、空间映射和主体图像等多种条件组合,并提供无训练和基于训练两种版本。此外,团队还构建并开源了首个针对多条件生成任务的数据集SubjectSpatial200K。大量实验表明,UniCombine在主体插入、主体-空间等任务上均达到SOTA性能,为可控生成领域的发展提供了重要支持。
来源:https://mp.weixin.qq.com/s/6q3BUHVC6NmfiSxJQ0ID8A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 20:30 , Processed in 0.313345 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表