Llama都在用的RoPE有了视频版，复旦上海AI Lab等提出长视频理解/检索绝佳拍档

周大发表于 2025-2-19 14:22:16

复旦大学与上海AI实验室提出了VideoRoPE，将RoPE扩展至视频领域，解决了时空建模难题。VideoRoPE具有四个关键特性：三维结构保留时空关系、低频时间分配减少振荡、对角布局保持空间对称性、可调时间间隔解耦时间和空间索引。通过引入更具挑战性的V-NIAH-D任务，研究团队验证了VideoRoPE的鲁棒性。实验结果表明，VideoRoPE在长视频检索、理解和幻觉任务中显著优于现有方法，在多个基准测试中表现突出，提升了视频处理能力。
来源：https://mp.weixin.qq.com/s/uxZdqxdef5Pw3xkoc_g_1Q

页: [1]

靠浦ai课堂's Archiver

Llama都在用的RoPE有了视频版，复旦上海AI Lab等提出长视频理解/检索绝佳拍档