李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

周大发表于 2024-12-23 15:08:28

李飞飞、谢赛宁团队研究发现多模态大语言模型（MLLM）展现出初步的空间记忆与意识能力，但在空间推理方面仍存瓶颈。研究者开发了视频视觉-空间智能基准（VSI-Bench），通过5000多个问答对评估MLLM，结果显示其虽具竞争力但仍逊色于人类。MLLM主要通过构建局部世界模型处理空间信息，在长距离物体关系处理上有局限。然而，认知地图方法可显著增强其空间推理能力。此外，谢赛宁与LeCun合作研究表明少量生成数据即可激发LLM的视觉生成能力，生成和理解相辅相成，未来有望进一步发展统一模型。
来源：https://mp.weixin.qq.com/s/HAVxsFmbymgORPBzwpa4RQ

页: [1]

靠浦ai课堂's Archiver

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！