谢赛宁等推出统一多模态模型！替代VAE实现图像理解/生成双SOTA，代码权重数据集全开源

周大发表于 2025-5-16 14:14:46

Salesforce等机构团队推出Blip3-o统一多模态模型，通过扩散Transformer生成CLIP图像特征，提升训练效率与生成质量。研究采用图像理解优先的顺序训练策略，确保任务协同效应。实验表明CLIP+Flow Matching设计最优，模型在多项基准测试中表现卓越并已开源，未来将拓展至图像编辑与视觉对话等领域。
来源：https://mp.weixin.qq.com/s/0Xcr4mQvJOVsWhGdOgrUbg

页: [1]

靠浦ai课堂's Archiver

谢赛宁等推出统一多模态模型！替代VAE实现图像理解/生成双SOTA，代码权重数据集全开源