周大 发表于 2025-4-16 14:51:37

多模态生成框架新SOTA:文本+空间+图像随意组合,20W+数据开源,复旦腾讯优图出品

复旦大学与腾讯优图实验室等机构的研究人员提出了基于DiT的多条件可控生成框架UniCombine。该框架通过引入Conditional MMDiT注意力机制和LoRA模块,能够灵活处理文本提示、空间映射和主体图像等多种条件组合,并提供无训练和基于训练两种版本。此外,团队还构建并开源了首个针对多条件生成任务的数据集SubjectSpatial200K。大量实验表明,UniCombine在主体插入、主体-空间等任务上均达到SOTA性能,为可控生成领域的发展提供了重要支持。
来源:https://mp.weixin.qq.com/s/6q3BUHVC6NmfiSxJQ0ID8A
页: [1]
查看完整版本: 多模态生成框架新SOTA:文本+空间+图像随意组合,20W+数据开源,复旦腾讯优图出品