13.8倍吞吐提升！浙大上海AI Lab等提出视觉生成新范式，从“下一个token”到“下一个邻域”

周大发表于 2025-3-30 14:57:46

研究人员提出了一种全新的视觉生成模型NAR，通过“下一个邻域预测”机制大幅提升了图像和视频生成效率。相比传统方法，NAR模型减少了生成步骤，并通过维度导向解码头实现并行生成。实验表明，在ImageNet和UCF-101等数据集上，NAR模型不仅将吞吐量提升13.8倍至166倍，还保持了高质量生成效果，为未来AI应用提供了高效解决方案。
来源：https://mp.weixin.qq.com/s/xi-DiW7vt0lI8xQ60XGq-Q

页: [1]

靠浦ai课堂's Archiver

13.8倍吞吐提升！浙大上海AI Lab等提出视觉生成新范式，从“下一个token”到“下一个邻域”