自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控

[复制链接]
周大 发表于 2025-7-29 15:41:22 | 显示全部楼层 |阅读模式
当前主流Diffusion模型在AI图像生成中面临控制精度低、多模态融合困难和训练成本高等问题。来自UIUC、清华等机构的研究团队提出基于自回归模型的MENTOR框架,通过统一Transformer架构与两阶段训练策略,实现像素级控制与多模态输入的精细对齐。MENTOR仅使用300万图文对和较小模型规模,就在DreamBench++评测中超越Emu2等Diffusion模型,在CP-PF分数和图像重建误差方面表现突出。其训练效率高,适应多种生成任务,展现出AR模型在视觉生成领域的潜力。尽管在空间推理等方面仍有差距,但MENTOR为下一代高效可控图像生成系统提供了新路径。
来源:https://mp.weixin.qq.com/s/ojbiUWbR9Rg5VTagM2-Pbg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 00:23 , Processed in 0.272412 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表