多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!
上海交通大学i-WiN团队针对传统多模态大语言模型在3D建模方面的不足,开发了CAD-GPT。该模型引入3D建模空间定位机制,将3D参数映射到1D语言信息维度,显著提升了MLLM的空间推理能力。研究团队通过设计专门的token、构建大规模数据集及优化训练策略,使CAD-GPT能够根据单张图片或一句话描述生成精准的CAD建模构造序列。实验结果表明,CAD-GPT在多个任务上的表现优于现有方法。这一成果已被AAAI 2025接收。来源:https://mp.weixin.qq.com/s/tX6Wei1Psy7ZlupryhjAyQ
页:
[1]