IML领域首个稀疏化视觉Transformer，代码已开源

周大发表于 2025-1-6 15:11:54

SparseViT由四川大学和澳门大学联合开发，针对现有图像篡改检测模型依赖手工特征提取的局限性，提出基于稀疏自注意力机制的新架构。该模型通过稀疏编码高效提取非语义特征，计算量最高减少80% FLOPs，同时引入可学习多尺度监督机制提升泛化能力。实验结果表明，SparseViT在四个公共数据集上达到SOTA性能，为图像篡改检测提供了新思路。相关代码已完全开源。
来源：https://mp.weixin.qq.com/s/kLbkNjDpYpEeULip32RkTQ

页: [1]

靠浦ai课堂's Archiver

IML领域首个稀疏化视觉Transformer，代码已开源