自回归模型杀回图像生成！实现像素级精准控制，比Diffusion更高效可控

周大发表于 2025-7-29 15:41:22

当前主流Diffusion模型在AI图像生成中面临控制精度低、多模态融合困难和训练成本高等问题。来自UIUC、清华等机构的研究团队提出基于自回归模型的MENTOR框架，通过统一Transformer架构与两阶段训练策略，实现像素级控制与多模态输入的精细对齐。MENTOR仅使用300万图文对和较小模型规模，就在DreamBench++评测中超越Emu2等Diffusion模型，在CP-PF分数和图像重建误差方面表现突出。其训练效率高，适应多种生成任务，展现出AR模型在视觉生成领域的潜力。尽管在空间推理等方面仍有差距，但MENTOR为下一代高效可控图像生成系统提供了新路径。
来源：https://mp.weixin.qq.com/s/ojbiUWbR9Rg5VTagM2-Pbg

		自动登录	找回密码
密码			立即注册

课程导航

自回归模型杀回图像生成！实现像素级精准控制，比Diffusion更高效可控