英伟达开源双目深度估计大模型FoundationStereo

[复制链接]
周大 发表于 2025-4-6 14:45:20 | 显示全部楼层 |阅读模式
英伟达研究院提出 FoundationStereo,一种实现强大零样本泛化能力的立体深度估计模型。该模型基于 100 万立体图像对的合成数据集 FSD,并通过自筛选流程提升数据质量。创新点包括侧调谐适配器(STA)融合单目先验与 CNN 特征,以及注意力混合成本过滤(AHCF)增强上下文推理能力。实验表明,FoundationStereo 在 Middlebury 和 ETH3D 基准上显著超越微调模型,刷新多个领域内记录。论文获 CVPR 2025 满分评审,代码已开源。
来源:https://mp.weixin.qq.com/s/b5uGkEa7_ssl_I4LbYCbXA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-9 18:50 , Processed in 0.266192 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表