周大 发表于 2025-2-3 13:50:19

多模态大模型空间推理能力仍存瓶颈

研究表明,多模态大语言模型(MLLM)在空间推理方面仍存在明显不足,难以区分基本空间概念。空间推理对于实现环境导航、地图理解等实际应用至关重要。目前,包括谷歌、微软在内的多家企业和AI创企正在积极布局空间推理技术研发,探索从不同角度和方法来增强模型的空间推理能力。李飞飞创业公司World Lab发布了首个项目“使用单图生成3D世界”。这些进展表明,提升模型的空间推理能力是当前人工智能领域的关键挑战之一。
来源:https://mp.weixin.qq.com/s/-AGnkk0lLR6MuW2LgwZ6tA
页: [1]
查看完整版本: 多模态大模型空间推理能力仍存瓶颈