英伟达提出首个Mamba-Transformer视觉骨干网络!打破精度/吞吐瓶颈
英伟达团队提出MambaVision混合架构,在CVPR 2025发表。该架构结合Mamba和Transformer优势,在ImageNet-1K数据集上达到84.2%的Top-1准确率,FLOPs较MaxViT-B减少56%。在MS COCO和ADE20K数据集的目标检测、实例分割及语义分割任务中也显著超越同类模型。相比纯Mamba或ViT模型,MambaVision在处理速度和准确性方面均有显著提升,成为计算机视觉领域的新突破。来源:https://mp.weixin.qq.com/s/GK_caDkKqbz1gZke6LmEgA
页:
[1]