李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!

[复制链接]
周大 发表于 2024-12-23 15:08:28 | 显示全部楼层 |阅读模式
李飞飞、谢赛宁团队研究发现多模态大语言模型(MLLM)展现出初步的空间记忆与意识能力,但在空间推理方面仍存瓶颈。研究者开发了视频视觉-空间智能基准(VSI-Bench),通过5000多个问答对评估MLLM,结果显示其虽具竞争力但仍逊色于人类。MLLM主要通过构建局部世界模型处理空间信息,在长距离物体关系处理上有局限。然而,认知地图方法可显著增强其空间推理能力。此外,谢赛宁与LeCun合作研究表明少量生成数据即可激发LLM的视觉生成能力,生成和理解相辅相成,未来有望进一步发展统一模型。
来源:https://mp.weixin.qq.com/s/HAVxsFmbymgORPBzwpa4RQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-22 22:29 , Processed in 0.253923 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表