周大 发表于 2024-12-23 15:08:28

李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!

李飞飞、谢赛宁团队研究发现多模态大语言模型(MLLM)展现出初步的空间记忆与意识能力,但在空间推理方面仍存瓶颈。研究者开发了视频视觉-空间智能基准(VSI-Bench),通过5000多个问答对评估MLLM,结果显示其虽具竞争力但仍逊色于人类。MLLM主要通过构建局部世界模型处理空间信息,在长距离物体关系处理上有局限。然而,认知地图方法可显著增强其空间推理能力。此外,谢赛宁与LeCun合作研究表明少量生成数据即可激发LLM的视觉生成能力,生成和理解相辅相成,未来有望进一步发展统一模型。
来源:https://mp.weixin.qq.com/s/HAVxsFmbymgORPBzwpa4RQ
页: [1]
查看完整版本: 李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!