语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场

[复制链接]
周大 发表于 2024-8-24 14:09:57 | 显示全部楼层 |阅读模式
Meta发布Transfusion,这是一种训练能够生成文本和图像的统一模型的方法。通过结合Transformer和扩散模型的优点,Transfusion能在混合模态序列上训练单个Transformer。研究人员预训练了一个70亿参数的Transfusion模型,实验表明该模型在单模态和多模态基准测试中表现出色,不仅能够生成高质量图像,还能保持强大的文本生成能力。Transfusion在GenEval基准测试上超越了DALL-E 2和Stable Diffusion XL,并展示了良好的图像编辑能力。
来源:https://mp.weixin.qq.com/s/MXlrZHMXZiG_thB9Qb3iFQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 16:23 , Processed in 0.336678 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表