多模态大语言模型空间智能新探索:仅需单张图片或一句话,就可以精准生成3D建模代码啦!

[复制链接]
周大 发表于 2025-1-3 14:53:53 | 显示全部楼层 |阅读模式
上海交通大学i-WiN团队针对传统多模态大语言模型在3D建模方面的不足,开发了CAD-GPT。该模型引入3D建模空间定位机制,将3D参数映射到1D语言信息维度,显著提升了MLLM的空间推理能力。研究团队通过设计专门的token、构建大规模数据集及优化训练策略,使CAD-GPT能够根据单张图片或一句话描述生成精准的CAD建模构造序列。实验结果表明,CAD-GPT在多个任务上的表现优于现有方法。这一成果已被AAAI 2025接收。
来源:https://mp.weixin.qq.com/s/tX6Wei1Psy7ZlupryhjAyQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 06:01 , Processed in 0.283728 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表