开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题
ModelScope团队推出Nexus-Gen模型,融合MLLMs语言建模与扩散模型图像建模能力,在图像生成与编辑质量上媲美GPT-4o,并实现全方位开源。该模型采用token到像素的技术路线,支持图像理解、生成和编辑任务,通过预填充自回归策略解决误差累计问题。团队基于25M数据集训练,包含图像理解、生成与编辑任务,使用三阶段训练策略提升性能。未来,团队将持续优化模型并开放更多资源,推动All-to-All统一模型发展。来源:https://mp.weixin.qq.com/s/SpfcHbkOZRSvcVSTZm3iKQ
页:
[1]