周大 发表于 2024-8-20 15:08:35

浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

浙江大学研究团队提出了一种名为ScanFormer的新框架,旨在优化指代表达理解(REC)任务中的视觉编码过程。该方法采用迭代扫描图像金字塔的技术,优先关注与任务更相关的前景区域,从而显著降低了计算成本,提高了模型的效率。实验表明,ScanFormer在多个基准数据集上的表现接近最先进水平,并具备实时推理能力。
来源:https://mp.weixin.qq.com/s/NOIb-jwC0s9dDm7lCfzobQ
页: [1]
查看完整版本: 浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余