语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场

周大发表于 2024-8-24 14:09:57

Meta发布Transfusion，这是一种训练能够生成文本和图像的统一模型的方法。通过结合Transformer和扩散模型的优点，Transfusion能在混合模态序列上训练单个Transformer。研究人员预训练了一个70亿参数的Transfusion模型，实验表明该模型在单模态和多模态基准测试中表现出色，不仅能够生成高质量图像，还能保持强大的文本生成能力。Transfusion在GenEval基准测试上超越了DALL-E 2和Stable Diffusion XL，并展示了良好的图像编辑能力。
来源：https://mp.weixin.qq.com/s/MXlrZHMXZiG_thB9Qb3iFQ

页: [1]

靠浦ai课堂's Archiver

语言图像模型大一统！Meta将Transformer和Diffusion融合，多模态AI王者登场