英伟达提出首个Mamba-Transformer视觉骨干网络！打破精度/吞吐瓶颈

周大发表于 2025-3-8 15:10:55

英伟达团队提出MambaVision混合架构，在CVPR 2025发表。该架构结合Mamba和Transformer优势，在ImageNet-1K数据集上达到84.2%的Top-1准确率，FLOPs较MaxViT-B减少56%。在MS COCO和ADE20K数据集的目标检测、实例分割及语义分割任务中也显著超越同类模型。相比纯Mamba或ViT模型，MambaVision在处理速度和准确性方面均有显著提升，成为计算机视觉领域的新突破。
来源：https://mp.weixin.qq.com/s/GK_caDkKqbz1gZke6LmEgA

页: [1]

靠浦ai课堂's Archiver

英伟达提出首个Mamba-Transformer视觉骨干网络！打破精度/吞吐瓶颈