Flag-DiT跨模态生成新突破,统一处理图像、视频、音频和3D数据

[复制链接]
周大 发表于 2024-5-12 17:08:24 | 显示全部楼层 |阅读模式
上海AI Lab、港中文和英伟达的研究者联合推出 Lumina-T2X 系列模型基于Diffusion Transformer(Flag-DiT)架构,成功实现了跨模态生成,包括图像、视频、3D对象和音频。Flag-DiT 改进了训练稳定性,增强了模态通用性,展示了出色的生成效果,且在训练效率上有所提升,为多模态AI技术开辟了新路径。
来源:https://mp.weixin.qq.com/s/NwwbaeRujh-02V6LRs5zMg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-20 00:35 , Processed in 0.298846 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表