通用端到端OCR模型开源,拒绝多模态大模型降维打击

[复制链接]
周大 发表于 2024-9-10 16:57:27 | 显示全部楼层 |阅读模式
Vary团队开源了首个迈向OCR-2.0的通用端到端模型GOT,支持多种OCR任务和输出格式。尽管GOT在多种场景下表现出色,但仍存在语言支持不足等问题。模型采用vision encoder+input embedding layer+decoder架构,通过三个阶段的训练提升通用性和适应性。团队认为端到端的OCR研究才刚刚开始,并未被多模态大模型完全取代。
来源:https://mp.weixin.qq.com/s/GuL_5zlBPYEzFhxIaRi3Nw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 09:52 , Processed in 0.272553 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表