VLM与扩散模型深度整合,图像理解生成编辑三合一模型登场,权重数据训练流程全开源
ModelScope团队发布Nexus-Gen V2,一个集成图像理解、生成与编辑能力的统一视觉语言模型,并已开源模型与训练数据。该模型基于VLM与扩散模型结合的架构,采用统一图像编码空间建模,训练使用2600万样本。通过优化训练策略、引入编辑解码器和“预填充自回归”机制,模型在理解、生成与编辑任务上均达到第一梯队水平。评测显示其图像理解优于现有统一模型,生成得分为0.77,指令微调后提升至0.81。团队同时构建了ImagePulse高质量图像编辑数据集并加入中文支持。尽管图像生成质量与指令遵从能力仍有提升空间,但其开源策略将推动统一模型发展。来源:https://mp.weixin.qq.com/s/Qk8cMtkAtGC16xj-nru_5g
页:
[1]