自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
当前主流Diffusion模型在AI图像生成中面临控制精度低、多模态融合困难和训练成本高等问题。来自UIUC、清华等机构的研究团队提出基于自回归模型的MENTOR框架,通过统一Transformer架构与两阶段训练策略,实现像素级控制与多模态输入的精细对齐。MENTOR仅使用300万图文对和较小模型规模,就在DreamBench++评测中超越Emu2等Diffusion模型,在CP-PF分数和图像重建误差方面表现突出。其训练效率高,适应多种生成任务,展现出AR模型在视觉生成领域的潜力。尽管在空间推理等方面仍有差距,但MENTOR为下一代高效可控图像生成系统提供了新路径。来源:https://mp.weixin.qq.com/s/ojbiUWbR9Rg5VTagM2-Pbg
页:
[1]