NumPro:数字标识符提升视频时序定位能力
NumPro方法通过在视频帧上添加数字标识符,将视频时序定位转化为“翻阅漫画”式过程,显著提升了视频大模型的时序定位能力。实验结果显示,NumPro在多个基准上超越此前最佳水平,且对模型的通用视频理解能力影响较小。该方法无需训练,适用于多种视频大语言模型,研究团队来自东南大学、马克斯·普朗克信息学研究所、腾讯微信团队和加州大学伯克利分校。来源:https://mp.weixin.qq.com/s/EcvL4TyVDPlO0ibre2JQfw
页:
[1]