上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++
复旦大学与上海人工智能实验室联合团队提出 VideoRoPE++,通过三维结构、低频时间分配、空间对称性优化及可调时间间隔设计,有效解决视频领域的 RoPE 扩展难题。新提出的 V-RULER 测试基准显示,传统 RoPE 变体因时间建模不足易受干扰。实验表明,VideoRoPE++ 在长视频检索与理解等任务中表现优异,在 64k 上下文长度下优于 M-RoPE,并结合 YaRN-V 外推方案在超长序列测试中得分达 81.33,显著提升模型鲁棒性与泛化能力。来源:https://mp.weixin.qq.com/s/V8vv6aTUuedl6fwnFhXFEg
页:
[1]