视频大模型新基元：用Object Tokens重塑细节感知与指代理解

周大发表于 5 小时前

北大与UCSD团队提出的VideoOrion视频理解框架被ICCV 2025高分接收，其创新性地将前景对象动态编码为Object Tokens，并与Context Tokens并行输入LLM，实现细粒度语义解耦。在MVBench、EgoSchema等多基准测试中，VideoOrion（7B）相对基线模型性能提升7.8%~15.6%，最高达65.2分，且天然支持指代问答任务，在VideoRef45K上微调后多项指标领先。尽管引入检测-分割-跟踪流程带来约38.5%时延，但该双分支范式为视频问答、机器人感知等应用提供了更具解释性的结构化路径。
来源：https://mp.weixin.qq.com/s/TuQkTGmPTCazdiO1D8OxGQ

		自动登录	找回密码
密码			立即注册

课程导航

视频大模型新基元：用Object Tokens重塑细节感知与指代理解