两张图就能重构3D空间？清华&NTU利用生成模型解锁空间智能新范式

周大发表于 2025-7-9 14:50:22

LangScene-X团队在ICCV 2025中稿的新研究提出了一种突破性生成式AI框架，仅需最少2张图像即可构建融合语言理解的3D空间模型，显著优于传统依赖20个以上视角的方法。该模型通过TriMap视频扩散模型统一处理RGB、法线与语义信息，将法线与RGB一致性误差降至8.1°，并引入语言量化压缩器（LQC）将高维语言特征高效压缩至3维，误差仅0.0001。实验显示其在LERF-OVS和ScanNet上的语义分割mIoU分别为50.52%和66.54%，大幅领先现有技术。该成果有望推动VR、自动驾驶等领域的空间智能发展。
来源：https://mp.weixin.qq.com/s/aL-3ZNkSdH06GAbMpNe4fg

页: [1]

靠浦ai课堂's Archiver

两张图就能重构3D空间？清华&NTU利用生成模型解锁空间智能新范式