SeeGround:用2D视觉大模型完成3D物体定位

[复制链接]
周大 发表于 2025-3-24 14:38:27 | 显示全部楼层 |阅读模式
SeeGround是一种全新的零样本3D视觉定位框架,无需3D训练数据,通过2D视觉语言模型完成3D物体定位任务。其核心创新在于透视自适应模块(PAM)和融合对齐模块(FAM),分别解决视角选择和2D-3D对齐问题,大幅提升空间推理能力。实验结果显示,SeeGround在ScanRefer和Nr3D数据集上表现优异,显著超越现有零样本方法,并在部分任务中接近弱监督性能。这一突破为增强现实、机器人导航等领域提供了高效解决方案。
来源:https://mp.weixin.qq.com/s/LakS8zqiA5XunmEQykKCDw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 07:50 , Processed in 0.303339 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表