李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了

[复制链接]
周大 发表于 2025-3-20 21:39:20 | 显示全部楼层 |阅读模式
斯坦福大学李飞飞团队提出 FlowMo,一种基于 Transformer 的扩散自编码器,用于改进图像 tokenization。FlowMo 利用两阶段训练策略,第一阶段通过修正流损失、感知损失等优化重建质量,第二阶段冻结编码器并微调解码器以提升感知相似性。实验结果显示,FlowMo 在 ImageNet-1K 数据集上的 rFID、PSNR 和 SSIM 等指标显著优于现有方法,特别是在低比特率(0.07 BPP)和高比特率(0.22 BPP)设置下表现突出。这一研究为图像生成模型提供了更高效的 tokenizer 设计方案。
来源:https://mp.weixin.qq.com/s/qwxVGyvspTDBzEvpovoc4g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 14:20 , Processed in 0.294125 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表