VLM与扩散模型深度整合，图像理解生成编辑三合一模型登场，权重数据训练流程全开源

周大发表于 2025-8-1 15:39:04

ModelScope团队发布Nexus-Gen V2，一个集成图像理解、生成与编辑能力的统一视觉语言模型，并已开源模型与训练数据。该模型基于VLM与扩散模型结合的架构，采用统一图像编码空间建模，训练使用2600万样本。通过优化训练策略、引入编辑解码器和“预填充自回归”机制，模型在理解、生成与编辑任务上均达到第一梯队水平。评测显示其图像理解优于现有统一模型，生成得分为0.77，指令微调后提升至0.81。团队同时构建了ImagePulse高质量图像编辑数据集并加入中文支持。尽管图像生成质量与指令遵从能力仍有提升空间，但其开源策略将推动统一模型发展。
来源：https://mp.weixin.qq.com/s/Qk8cMtkAtGC16xj-nru_5g

页: [1]

靠浦ai课堂's Archiver

VLM与扩散模型深度整合，图像理解生成编辑三合一模型登场，权重数据训练流程全开源