开源全能图像模型媲美GPT-4o!理解生成编辑同时搞定,解决扩散模型误差累计问题

[复制链接]
周大 发表于 2025-5-11 14:54:00 | 显示全部楼层 |阅读模式
ModelScope团队推出Nexus-Gen模型,融合MLLMs语言建模与扩散模型图像建模能力,在图像生成与编辑质量上媲美GPT-4o,并实现全方位开源。该模型采用token到像素的技术路线,支持图像理解、生成和编辑任务,通过预填充自回归策略解决误差累计问题。团队基于25M数据集训练,包含图像理解、生成与编辑任务,使用三阶段训练策略提升性能。未来,团队将持续优化模型并开放更多资源,推动All-to-All统一模型发展。
来源:https://mp.weixin.qq.com/s/SpfcHbkOZRSvcVSTZm3iKQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-20 18:36 , Processed in 0.274165 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表