通用端到端OCR模型开源，拒绝多模态大模型降维打击

周大发表于 2024-9-10 16:57:27

Vary团队开源了首个迈向OCR-2.0的通用端到端模型GOT，支持多种OCR任务和输出格式。尽管GOT在多种场景下表现出色，但仍存在语言支持不足等问题。模型采用vision encoder+input embedding layer+decoder架构，通过三个阶段的训练提升通用性和适应性。团队认为端到端的OCR研究才刚刚开始，并未被多模态大模型完全取代。
来源：https://mp.weixin.qq.com/s/GuL_5zlBPYEzFhxIaRi3Nw

页: [1]

靠浦ai课堂's Archiver

通用端到端OCR模型开源，拒绝多模态大模型降维打击