李飞飞、吴佳俊团队新作：不需要卷积和GAN，更好的图像tokenizer来了

周大发表于 2025-3-20 21:39:20

斯坦福大学李飞飞团队提出 FlowMo，一种基于 Transformer 的扩散自编码器，用于改进图像 tokenization。FlowMo 利用两阶段训练策略，第一阶段通过修正流损失、感知损失等优化重建质量，第二阶段冻结编码器并微调解码器以提升感知相似性。实验结果显示，FlowMo 在 ImageNet-1K 数据集上的 rFID、PSNR 和 SSIM 等指标显著优于现有方法，特别是在低比特率（0.07 BPP）和高比特率（0.22 BPP）设置下表现突出。这一研究为图像生成模型提供了更高效的 tokenizer 设计方案。
来源：https://mp.weixin.qq.com/s/qwxVGyvspTDBzEvpovoc4g

页: [1]

靠浦ai课堂's Archiver

李飞飞、吴佳俊团队新作：不需要卷积和GAN，更好的图像tokenizer来了