旷视发布Fox模型,革新复杂文档理解能力

[复制链接]
周大 发表于 2024-6-1 16:09:15 | 显示全部楼层 |阅读模式
旷视团队推出了一款名为Fox的多模态大模型,旨在解决复杂文档理解难题。这款模型能够处理密集文字、多栏混排的中英PDF,实现区域级别的细粒度理解,包括文字识别、翻译和图片内容描述。通过精准定位、多视觉词表协同学习及页面打包技术,Fox提升了对图文混排的处理能力。此外,团队还构建了一个包含9种任务的基准测试,推动该领域的研究发展。
来源:https://mp.weixin.qq.com/s/DZAR3Lc9d1JCYTvVljFGng

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-17 11:37 , Processed in 0.284887 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表