周大 发表于 2025-6-9 13:38:53

AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

得克萨斯大学阿灵顿分校(UTA)计算机系研究团队提出了 AdaCM2,一种专注于极长视频理解的跨模态记忆压缩框架。该研究解决了现有模型在处理分钟级或小时级视频时面临的显存瓶颈和冗余信息问题,通过引入逐帧回归式建模、跨模态注意力打分和分层压缩机制,显著优化了计算资源利用率。实验结果显示,AdaCM2 在多个标准数据集上性能优于现有方法,显存使用降低 65%,并能稳定处理超 2 小时视频。这项研究已被 CVPR 2025 接收为 Highlight 论文,应用前景覆盖智能交通、医疗分析及机器人感知等领域,标志着长视频多模态建模的重大突破。
来源:https://mp.weixin.qq.com/s/6UEwXmHa25mu7W8FIE5ZFg
页: [1]
查看完整版本: AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架