周大 发表于 2024-5-12 17:08:24

Flag-DiT跨模态生成新突破,统一处理图像、视频、音频和3D数据

上海AI Lab、港中文和英伟达的研究者联合推出 Lumina-T2X 系列模型基于Diffusion Transformer(Flag-DiT)架构,成功实现了跨模态生成,包括图像、视频、3D对象和音频。Flag-DiT 改进了训练稳定性,增强了模态通用性,展示了出色的生成效果,且在训练效率上有所提升,为多模态AI技术开辟了新路径。
来源:https://mp.weixin.qq.com/s/NwwbaeRujh-02V6LRs5zMg
页: [1]
查看完整版本: Flag-DiT跨模态生成新突破,统一处理图像、视频、音频和3D数据