开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题

周大发表于 2025-5-11 14:54:00

ModelScope团队推出Nexus-Gen模型，融合MLLMs语言建模与扩散模型图像建模能力，在图像生成与编辑质量上媲美GPT-4o，并实现全方位开源。该模型采用token到像素的技术路线，支持图像理解、生成和编辑任务，通过预填充自回归策略解决误差累计问题。团队基于25M数据集训练，包含图像理解、生成与编辑任务，使用三阶段训练策略提升性能。未来，团队将持续优化模型并开放更多资源，推动All-to-All统一模型发展。
来源：https://mp.weixin.qq.com/s/SpfcHbkOZRSvcVSTZm3iKQ

页: [1]

靠浦ai课堂's Archiver

开源全能图像模型媲美GPT-4o！理解生成编辑同时搞定，解决扩散模型误差累计问题