VimTS框架提升跨域文本识别，视频识别性能显著增强

周大发表于 2024-5-28 16:12:12

华科大、华工大和浙大的研究团队近日推出VimTS框架，以增强模型在跨域文本端到端识别中的泛化能力，特别是视频文本识别。该框架通过提示查询生成模块和任务感知适配器，实现了图像和视频任务间的协同，有效解决了数据差异和时间信息学习的挑战。在多个基准测试中，VimTS的表现优于现有方法，且在资源效率上优于大型多模态模型。
来源：https://mp.weixin.qq.com/s/g7JwQKqtyM_QBcQzEwZEGw

页: [1]

靠浦ai课堂's Archiver

VimTS框架提升跨域文本识别，视频识别性能显著增强