周大 发表于 2025-3-8 15:10:55

英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈

英伟达团队提出MambaVision混合架构,在CVPR 2025发表。该架构结合Mamba和Transformer优势,在ImageNet-1K数据集上达到84.2%的Top-1准确率,FLOPs较MaxViT-B减少56%。在MS COCO和ADE20K数据集的目标检测、实例分割及语义分割任务中也显著超越同类模型。相比纯Mamba或ViT模型,MambaVision在处理速度和准确性方面均有显著提升,成为计算机视觉领域的新突破。
来源:https://mp.weixin.qq.com/s/GK_caDkKqbz1gZke6LmEgA
页: [1]
查看完整版本: 英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈