多模态大语言模型空间智能新探索：仅需单张图片或一句话，就可以精准生成3D建模代码啦！

周大发表于 2025-1-3 14:53:53

上海交通大学i-WiN团队针对传统多模态大语言模型在3D建模方面的不足，开发了CAD-GPT。该模型引入3D建模空间定位机制，将3D参数映射到1D语言信息维度，显著提升了MLLM的空间推理能力。研究团队通过设计专门的token、构建大规模数据集及优化训练策略，使CAD-GPT能够根据单张图片或一句话描述生成精准的CAD建模构造序列。实验结果表明，CAD-GPT在多个任务上的表现优于现有方法。这一成果已被AAAI 2025接收。
来源：https://mp.weixin.qq.com/s/tX6Wei1Psy7ZlupryhjAyQ

页: [1]

靠浦ai课堂's Archiver

多模态大语言模型空间智能新探索：仅需单张图片或一句话，就可以精准生成3D建模代码啦！