VLM与扩散模型深度整合,图像理解生成编辑三合一模型登场,权重数据训练流程全开源

[复制链接]
周大 发表于 2025-8-1 15:39:04 | 显示全部楼层 |阅读模式
ModelScope团队发布Nexus-Gen V2,一个集成图像理解、生成与编辑能力的统一视觉语言模型,并已开源模型与训练数据。该模型基于VLM与扩散模型结合的架构,采用统一图像编码空间建模,训练使用2600万样本。通过优化训练策略、引入编辑解码器和“预填充自回归”机制,模型在理解、生成与编辑任务上均达到第一梯队水平。评测显示其图像理解优于现有统一模型,生成得分为0.77,指令微调后提升至0.81。团队同时构建了ImagePulse高质量图像编辑数据集并加入中文支持。尽管图像生成质量与指令遵从能力仍有提升空间,但其开源策略将推动统一模型发展。
来源:https://mp.weixin.qq.com/s/Qk8cMtkAtGC16xj-nru_5g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-22 22:23 , Processed in 0.287355 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表