谢赛宁、李飞飞、LeCun联手提出多模态LLM新范式,「空间超感知」登场

[复制链接]
周大 发表于 2025-11-10 14:18:08 | 显示全部楼层 |阅读模式
谢赛宁团队联合李飞飞、Yann LeCun 提出“Cambrian-S”,旨在推动视频多模态模型向“空间超感知”发展。针对现有视频基准偏重语言理解的问题,团队构建新基准 VSI-Super,测试显示前沿模型如 Gemini-2.5-Flash 在长视频回忆与计数任务中性能低下(60分钟视频上准确率仅41.5和10.9)。为此,团队提出“预测性感知”范式,通过潜变量帧预测生成“惊讶度”信号,实现事件分割与高效记忆管理。实验表明该方法显著提升模型在复杂空间认知任务中的表现,揭示仅靠扩大上下文或参数规模不足以实现真正感知,需构建具备预测与选择性注意机制的内部世界模型。
来源:https://mp.weixin.qq.com/s/H7K8DQ4ztbO138R_STBDRQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-28 04:37 , Processed in 0.264915 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表