周大 发表于 2025-3-30 14:57:46

13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”

研究人员提出了一种全新的视觉生成模型NAR,通过“下一个邻域预测”机制大幅提升了图像和视频生成效率。相比传统方法,NAR模型减少了生成步骤,并通过维度导向解码头实现并行生成。实验表明,在ImageNet和UCF-101等数据集上,NAR模型不仅将吞吐量提升13.8倍至166倍,还保持了高质量生成效果,为未来AI应用提供了高效解决方案。
来源:https://mp.weixin.qq.com/s/xi-DiW7vt0lI8xQ60XGq-Q
页: [1]
查看完整版本: 13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”