周大 发表于 2024-8-24 14:09:57

语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场

Meta发布Transfusion,这是一种训练能够生成文本和图像的统一模型的方法。通过结合Transformer和扩散模型的优点,Transfusion能在混合模态序列上训练单个Transformer。研究人员预训练了一个70亿参数的Transfusion模型,实验表明该模型在单模态和多模态基准测试中表现出色,不仅能够生成高质量图像,还能保持强大的文本生成能力。Transfusion在GenEval基准测试上超越了DALL-E 2和Stable Diffusion XL,并展示了良好的图像编辑能力。
来源:https://mp.weixin.qq.com/s/MXlrZHMXZiG_thB9Qb3iFQ
页: [1]
查看完整版本: 语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场