当前视觉语言模型(VLM)在处理图像描述、视觉问答等任务上表现出色,但在长视频理解和检索等长上下文任务中仍存在挑战。尽管旋转位置编码(RoPE)有助于提升语言模型的长度泛化能力,但其在多模态领域的扩展效果有限。CMU 与小红书研究团队发现,现有方法因保留所有频率而破坏了“语义偏好”这一关键属性,导致注意力机制无法有效聚焦语义相关部分。基于此,他们提出了 HoPE(Hybrid of Position Embedding),通过结合零频率时间建模与动态时序缩放策略,在多个长视频任务中显著提升了模型表现。实验验证显示,HoPE 在不同模型规模和上下文长度下均达到最优性能,为多模态长上下文建模提供了新思路。
来源:https://mp.weixin.qq.com/s/KQHGw8_v0rEY8pS7jufRbQ