统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者

[复制链接]
周大 发表于 2024-8-25 14:33:15 | 显示全部楼层 |阅读模式
Meta与Waymo等机构的研究人员开发出Transfusion——一种多模态模型训练方法,可在离散和连续数据上无缝生成图像与文本。Transfusion结合了语言模型和扩散模型的优势,使用单个Transformer处理不同模态的数据。实验结果显示,该模型在图像和文本生成方面均展现出色性能,尤其在GenEval基准测试中超越了DALL-E 2和SDXL等流行模型,展现出强大的扩展能力。
来源:https://mp.weixin.qq.com/s/D0sadIZkILx8VvWcsIEYFQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-12 20:56 , Processed in 0.278885 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表