周大 发表于 2024-9-10 16:57:27

通用端到端OCR模型开源,拒绝多模态大模型降维打击

Vary团队开源了首个迈向OCR-2.0的通用端到端模型GOT,支持多种OCR任务和输出格式。尽管GOT在多种场景下表现出色,但仍存在语言支持不足等问题。模型采用vision encoder+input embedding layer+decoder架构,通过三个阶段的训练提升通用性和适应性。团队认为端到端的OCR研究才刚刚开始,并未被多模态大模型完全取代。
来源:https://mp.weixin.qq.com/s/GuL_5zlBPYEzFhxIaRi3Nw
页: [1]
查看完整版本: 通用端到端OCR模型开源,拒绝多模态大模型降维打击