Flag-DiT跨模态生成新突破，统一处理图像、视频、音频和3D数据

周大发表于 2024-5-12 17:08:24

上海AI Lab、港中文和英伟达的研究者联合推出 Lumina-T2X 系列模型基于Diffusion Transformer（Flag-DiT）架构，成功实现了跨模态生成，包括图像、视频、3D对象和音频。Flag-DiT 改进了训练稳定性，增强了模态通用性，展示了出色的生成效果，且在训练效率上有所提升，为多模态AI技术开辟了新路径。
来源：https://mp.weixin.qq.com/s/NwwbaeRujh-02V6LRs5zMg

页: [1]

靠浦ai课堂's Archiver

Flag-DiT跨模态生成新突破，统一处理图像、视频、音频和3D数据