仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!

[复制链接]
周大 发表于 2025-1-15 14:57:55 | 显示全部楼层 |阅读模式
清华大学、香港大学和上海AI Lab联合提出了一种新的位置编码方法——Variable Vision Position Embedding (V2PE),以解决视觉-语言多模态大模型(VLMs)在长上下文场景下表现不佳的问题。V2PE通过为视觉token分配可变位置增量,有效解决了传统位置编码超出模型训练上下文窗口的限制,显著提升了模型在32K至1M长度超长上下文任务中的表现,甚至超越了最先进的闭源大模型。研究团队还构建了用于VLMs长上下文训练和评估的混合数据集,并引入了两个增强的长上下文多模态数据集Long-VQA和Long-MR,进一步验证了V2PE的有效性。
来源:https://mp.weixin.qq.com/s/mD0WQe4KBrDVCJdTtpk5Bw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 16:20 , Processed in 0.297189 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表