谢赛宁等推出统一多模态模型!替代VAE实现图像理解/生成双SOTA,代码权重数据集全开源

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
Salesforce等机构团队推出Blip3-o统一多模态模型,通过扩散Transformer生成CLIP图像特征,提升训练效率与生成质量。研究采用图像理解优先的顺序训练策略,确保任务协同效应。实验表明CLIP+Flow Matching设计最优,模型在多项基准测试中表现卓越并已开源,未来将拓展至图像编辑与视觉对话等领域。
来源:https://mp.weixin.qq.com/s/0Xcr4mQvJOVsWhGdOgrUbg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-20 11:30 , Processed in 0.297752 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表