周大 发表于 2024-8-25 14:33:15

统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者

Meta与Waymo等机构的研究人员开发出Transfusion——一种多模态模型训练方法,可在离散和连续数据上无缝生成图像与文本。Transfusion结合了语言模型和扩散模型的优势,使用单个Transformer处理不同模态的数据。实验结果显示,该模型在图像和文本生成方面均展现出色性能,尤其在GenEval基准测试中超越了DALL-E 2和SDXL等流行模型,展现出强大的扩展能力。
来源:https://mp.weixin.qq.com/s/D0sadIZkILx8VvWcsIEYFQ
页: [1]
查看完整版本: 统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者