打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

[复制链接]
周大 发表于 2025-6-29 15:03:30 | 显示全部楼层 |阅读模式
当前视觉语言模型(VLM)在处理图像描述、视觉问答等任务上表现出色,但在长视频理解和检索等长上下文任务中仍存在挑战。尽管旋转位置编码(RoPE)有助于提升语言模型的长度泛化能力,但其在多模态领域的扩展效果有限。CMU 与小红书研究团队发现,现有方法因保留所有频率而破坏了“语义偏好”这一关键属性,导致注意力机制无法有效聚焦语义相关部分。基于此,他们提出了 HoPE(Hybrid of Position Embedding),通过结合零频率时间建模与动态时序缩放策略,在多个长视频任务中显著提升了模型表现。实验验证显示,HoPE 在不同模型规模和上下文长度下均达到最优性能,为多模态长上下文建模提供了新思路。
来源:https://mp.weixin.qq.com/s/KQHGw8_v0rEY8pS7jufRbQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 22:37 , Processed in 0.281993 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表