英伟达开源双目深度估计大模型FoundationStereo
英伟达研究院提出 FoundationStereo,一种实现强大零样本泛化能力的立体深度估计模型。该模型基于 100 万立体图像对的合成数据集 FSD,并通过自筛选流程提升数据质量。创新点包括侧调谐适配器(STA)融合单目先验与 CNN 特征,以及注意力混合成本过滤(AHCF)增强上下文推理能力。实验表明,FoundationStereo 在 Middlebury 和 ETH3D 基准上显著超越微调模型,刷新多个领域内记录。论文获 CVPR 2025 满分评审,代码已开源。来源:https://mp.weixin.qq.com/s/b5uGkEa7_ssl_I4LbYCbXA
页:
[1]