两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式
LangScene-X团队在ICCV 2025中稿的新研究提出了一种突破性生成式AI框架,仅需最少2张图像即可构建融合语言理解的3D空间模型,显著优于传统依赖20个以上视角的方法。该模型通过TriMap视频扩散模型统一处理RGB、法线与语义信息,将法线与RGB一致性误差降至8.1°,并引入语言量化压缩器(LQC)将高维语言特征高效压缩至3维,误差仅0.0001。实验显示其在LERF-OVS和ScanNet上的语义分割mIoU分别为50.52%和66.54%,大幅领先现有技术。该成果有望推动VR、自动驾驶等领域的空间智能发展。来源:https://mp.weixin.qq.com/s/aL-3ZNkSdH06GAbMpNe4fg
页:
[1]