混元OCR模型核心技术揭秘:统一框架、真端到端

[复制链接]
周大 发表于 前天 15:16 | 显示全部楼层 |阅读模式
腾讯混元团队发布并开源轻量级OCR模型HunyuanOCR(1B参数),采用端到端ViT+LLM架构,在文本检测、复杂文档解析等方面超越现有方案,获ICDAR 2025小模型赛道冠军,并在OCRBench实现3B以下模型SOTA。其构建了超2亿图像-文本对的多语言数据集,支持130种语言及9类真实场景,结合四阶段预训练与强化学习优化,在信息抽取、图像翻译等任务中表现突出。模型已开源,Hugging Face趋势榜前四,GitHub星标超700,且被vLLM官方当日接入,助力科研与工业应用。
来源:https://mp.weixin.qq.com/s/MTIQcsxDWD476XmG2zfLgg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-12-1 06:08 , Processed in 0.264259 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表