SeeGround：用2D视觉大模型完成3D物体定位

周大发表于 2025-3-24 14:38:27

SeeGround是一种全新的零样本3D视觉定位框架，无需3D训练数据，通过2D视觉语言模型完成3D物体定位任务。其核心创新在于透视自适应模块（PAM）和融合对齐模块（FAM），分别解决视角选择和2D-3D对齐问题，大幅提升空间推理能力。实验结果显示，SeeGround在ScanRefer和Nr3D数据集上表现优异，显著超越现有零样本方法，并在部分任务中接近弱监督性能。这一突破为增强现实、机器人导航等领域提供了高效解决方案。
来源：https://mp.weixin.qq.com/s/LakS8zqiA5XunmEQykKCDw

页: [1]

靠浦ai课堂's Archiver

SeeGround：用2D视觉大模型完成3D物体定位