两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式

[复制链接]
周大 发表于 2025-7-9 14:50:22 | 显示全部楼层 |阅读模式
LangScene-X团队在ICCV 2025中稿的新研究提出了一种突破性生成式AI框架,仅需最少2张图像即可构建融合语言理解的3D空间模型,显著优于传统依赖20个以上视角的方法。该模型通过TriMap视频扩散模型统一处理RGB、法线与语义信息,将法线与RGB一致性误差降至8.1°,并引入语言量化压缩器(LQC)将高维语言特征高效压缩至3维,误差仅0.0001。实验显示其在LERF-OVS和ScanNet上的语义分割mIoU分别为50.52%和66.54%,大幅领先现有技术。该成果有望推动VR、自动驾驶等领域的空间智能发展。
来源:https://mp.weixin.qq.com/s/aL-3ZNkSdH06GAbMpNe4fg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 03:46 , Processed in 0.280979 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表