视频大模型新基元:用Object Tokens重塑细节感知与指代理解

[复制链接]
周大 发表于 5 小时前 | 显示全部楼层 |阅读模式
北大与UCSD团队提出的VideoOrion视频理解框架被ICCV 2025高分接收,其创新性地将前景对象动态编码为Object Tokens,并与Context Tokens并行输入LLM,实现细粒度语义解耦。在MVBench、EgoSchema等多基准测试中,VideoOrion(7B)相对基线模型性能提升7.8%~15.6%,最高达65.2分,且天然支持指代问答任务,在VideoRef45K上微调后多项指标领先。尽管引入检测-分割-跟踪流程带来约38.5%时延,但该双分支范式为视频问答、机器人感知等应用提供了更具解释性的结构化路径。
来源:https://mp.weixin.qq.com/s/TuQkTGmPTCazdiO1D8OxGQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-27 22:22 , Processed in 0.256269 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表