周大 发表于 2025-3-20 21:39:20

李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了

斯坦福大学李飞飞团队提出 FlowMo,一种基于 Transformer 的扩散自编码器,用于改进图像 tokenization。FlowMo 利用两阶段训练策略,第一阶段通过修正流损失、感知损失等优化重建质量,第二阶段冻结编码器并微调解码器以提升感知相似性。实验结果显示,FlowMo 在 ImageNet-1K 数据集上的 rFID、PSNR 和 SSIM 等指标显著优于现有方法,特别是在低比特率(0.07 BPP)和高比特率(0.22 BPP)设置下表现突出。这一研究为图像生成模型提供了更高效的 tokenizer 设计方案。
来源:https://mp.weixin.qq.com/s/qwxVGyvspTDBzEvpovoc4g
页: [1]
查看完整版本: 李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了