Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档

[复制链接]
周大 发表于 2025-2-19 14:22:16 | 显示全部楼层 |阅读模式
复旦大学与上海AI实验室提出了VideoRoPE,将RoPE扩展至视频领域,解决了时空建模难题。VideoRoPE具有四个关键特性:三维结构保留时空关系、低频时间分配减少振荡、对角布局保持空间对称性、可调时间间隔解耦时间和空间索引。通过引入更具挑战性的V-NIAH-D任务,研究团队验证了VideoRoPE的鲁棒性。实验结果表明,VideoRoPE在长视频检索、理解和幻觉任务中显著优于现有方法,在多个基准测试中表现突出,提升了视频处理能力。
来源:https://mp.weixin.qq.com/s/uxZdqxdef5Pw3xkoc_g_1Q

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-20 14:11 , Processed in 0.294759 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表