Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档
复旦大学与上海AI实验室提出了VideoRoPE,将RoPE扩展至视频领域,解决了时空建模难题。VideoRoPE具有四个关键特性:三维结构保留时空关系、低频时间分配减少振荡、对角布局保持空间对称性、可调时间间隔解耦时间和空间索引。通过引入更具挑战性的V-NIAH-D任务,研究团队验证了VideoRoPE的鲁棒性。实验结果表明,VideoRoPE在长视频检索、理解和幻觉任务中显著优于现有方法,在多个基准测试中表现突出,提升了视频处理能力。来源:https://mp.weixin.qq.com/s/uxZdqxdef5Pw3xkoc_g_1Q
页:
[1]