打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

周大发表于 2025-6-29 15:03:30

当前视觉语言模型（VLM）在处理图像描述、视觉问答等任务上表现出色，但在长视频理解和检索等长上下文任务中仍存在挑战。尽管旋转位置编码（RoPE）有助于提升语言模型的长度泛化能力，但其在多模态领域的扩展效果有限。CMU 与小红书研究团队发现，现有方法因保留所有频率而破坏了“语义偏好”这一关键属性，导致注意力机制无法有效聚焦语义相关部分。基于此，他们提出了 HoPE（Hybrid of Position Embedding），通过结合零频率时间建模与动态时序缩放策略，在多个长视频任务中显著提升了模型表现。实验验证显示，HoPE 在不同模型规模和上下文长度下均达到最优性能，为多模态长上下文建模提供了新思路。
来源：https://mp.weixin.qq.com/s/KQHGw8_v0rEY8pS7jufRbQ

		自动登录	找回密码
密码			立即注册

课程导航

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力