Flag-DiT跨模态生成新突破,统一处理图像、视频、音频和3D数据
上海AI Lab、港中文和英伟达的研究者联合推出 Lumina-T2X 系列模型基于Diffusion Transformer(Flag-DiT)架构,成功实现了跨模态生成,包括图像、视频、3D对象和音频。Flag-DiT 改进了训练稳定性,增强了模态通用性,展示了出色的生成效果,且在训练效率上有所提升,为多模态AI技术开辟了新路径。来源:https://mp.weixin.qq.com/s/NwwbaeRujh-02V6LRs5zMg
页:
[1]