谢赛宁等推出统一多模态模型!替代VAE实现图像理解/生成双SOTA,代码权重数据集全开源
Salesforce等机构团队推出Blip3-o统一多模态模型,通过扩散Transformer生成CLIP图像特征,提升训练效率与生成质量。研究采用图像理解优先的顺序训练策略,确保任务协同效应。实验表明CLIP+Flow Matching设计最优,模型在多项基准测试中表现卓越并已开源,未来将拓展至图像编辑与视觉对话等领域。来源:https://mp.weixin.qq.com/s/0Xcr4mQvJOVsWhGdOgrUbg
页:
[1]