英伟达开源双目深度估计大模型FoundationStereo

周大发表于 2025-4-6 14:45:20

英伟达研究院提出 FoundationStereo，一种实现强大零样本泛化能力的立体深度估计模型。该模型基于 100 万立体图像对的合成数据集 FSD，并通过自筛选流程提升数据质量。创新点包括侧调谐适配器（STA）融合单目先验与 CNN 特征，以及注意力混合成本过滤（AHCF）增强上下文推理能力。实验表明，FoundationStereo 在 Middlebury 和 ETH3D 基准上显著超越微调模型，刷新多个领域内记录。论文获 CVPR 2025 满分评审，代码已开源。
来源：https://mp.weixin.qq.com/s/b5uGkEa7_ssl_I4LbYCbXA

页: [1]

靠浦ai课堂's Archiver

英伟达开源双目深度估计大模型FoundationStereo