VimTS框架提升跨域文本识别,视频识别性能显著增强

[复制链接]
周大 发表于 2024-5-28 16:12:12 | 显示全部楼层 |阅读模式
华科大、华工大和浙大的研究团队近日推出VimTS框架,以增强模型在跨域文本端到端识别中的泛化能力,特别是视频文本识别。该框架通过提示查询生成模块和任务感知适配器,实现了图像和视频任务间的协同,有效解决了数据差异和时间信息学习的挑战。在多个基准测试中,VimTS的表现优于现有方法,且在资源效率上优于大型多模态模型。
来源:https://mp.weixin.qq.com/s/g7JwQKqtyM_QBcQzEwZEGw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-8 18:34 , Processed in 0.295219 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表